本書從淺顯易懂的「大數據和機器學習」原理說明入手,講述大數據和機器學習的基本概念,如分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數據可視化應用等。書中不僅加入了新近的大數據技術,還豐富了「機器學習」內容。為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和范例程序詳解,展示了如何在單機Windows系統上通過Virtual Box虛擬機安裝多機Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平台並不限制於單台實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以實現將自己的平台搭建在多台實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。本書非常適合於學習大數據基礎知識的初學者閱讀,更適合正在學習大數據理論和技術的人員作為上機實踐用的教材。
林大貴,從事IT行業多年,在系統設計、網站開發、數字營銷、商業智慧、大數據、機器學習等領域具有豐富的實戰經驗。