《Hadoop + Spark大數據巨量分析與機器學習整合開發實戰》從淺顯易懂的「大數據和機器學習」原理介紹和說明入手,講述大數據和機器學習的基本概念,如:分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(回歸分析)和數據可視化應用。為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和范例程序詳解,展示了如何在單台Windows系統上通過Virtual Box虛擬機安裝多台Linux虛擬機,如何建立Hadoop集群,再建立Spark開發環境。書中介紹搭建的上機實踐平台並不限制於單台實體計算機。對於有條件的公司和學校,參照書中介紹的搭建過程,同樣可以將實踐平台搭建在多台實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。
《Hadoop + Spark大數據巨量分析與機器學習整合開發實戰》非常適合於學習大數據基礎知識的初學者閱讀,更適合正在學習大數據理論和技術的人員作為上機實踐用的教材。
林大貴,作者從事IT產業多年,包括系統設計、網站開發等諸多領域,具備豐富實戰開發經驗,多版多部具有影響力的作品。