本書以自然語言處理常用技術與真實案例相結合的方式,深入淺出地介紹自然語言處理中的關鍵內容。全書共8章,內容包括自然語言處理概述、文本數據爬取、文本基礎處理、文本進階處理、天問一號事件中的B站網民情感分析、新聞文本分類、基於瀏覽記錄的個性化新聞推薦以及基於TipDM數據挖掘建模平台實現新聞文本分類。本書大部分章節包含了課後習題,其中前4章設置了選擇題,后4章設置了操作題,希望通過練習和操作實踐,幫助讀者鞏固所學的內容。
本書可作為高校數據科學、人工智能和新聞傳播相關專業教材,也可作為自然語言處理愛好者的自學用書。
張良均,高級信息系統項目管理師,泰迪杯全國大學生數據挖掘競賽(www.tipdm.org)的發起人。華南師範大學、廣東工業大學兼職教授,廣東省工業與應用數學學會理事。兼有大型高科技企業和高校的工作經歷,主要從事大數據挖掘及其應用的策劃、研發及咨詢培訓。全國計算機技術與軟件專業技術資格(水平)考試繼續教育和CDA數據分析師培訓講師。發表數據挖掘相關論文數二十余篇,已取得國家發明專利12項,主編圖書《神經網絡實用教程》、《數據挖掘:實用案例分析》、《MATLAB數據分析與挖掘實戰》等9本暢銷圖書,主持並完成科技項目9項。獲得SAS、SPSS數據挖掘認證及Hadoop開發工程師證書,具有電力、電信、銀行、製造企業、電子商務和電子政務的項目經驗和行業背景。