会员   密码 您忘记密码了吗?
1,656,034 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > 數據分析實戰
數據分析實戰
上一张
下一张
prev next

數據分析實戰

作者: (美)托馬茲·卓巴斯
出版社: 機械工業出版社
ISBN: 9787111597797
出版日期: 2018-06-01
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT474.00
市场价格: RM85.21
本店售价: RM75.84
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

本書分為三大部分。第一部分會講授一些實戰技巧,用於讀取、寫入、清洗、格式化、探索與理解資料;第二部分由一些較深入的主題組成,比如分類、聚類和預測等;第三部分介紹更高深的主題,從圖論到自然語言處理,到離散選擇模型,再到類比。


作者介紹

托馬茲·卓巴斯(Tomasz Drabas)微軟資料科學家,致力於解決高維特徵空間的問題。他有超過13年的資料分析和資料科學經驗:在歐洲、澳大利亞和北美洲三大洲期間,工作領域遍及高新技術、航空、電信、金融和諮詢。他曾擔任Beyond Analysis Australia的資料分析師和Vodafone Hutchison Australia的高級資料分析師/資料科學家等。
 


目錄

推薦序
譯者序
前言
致謝
關於作者
關於審稿人

第1章 準備數據1
1.1 導論1
1.2 使用Python讀寫CSV/TSV檔2
1.3 使用Python讀寫JSON檔6
1.4 使用Python讀寫Excel檔7
1.5 使用Python讀寫XML檔10
1.6 使用pandas檢索HTML頁面13
1.7 存儲並檢索關聯式資料庫15
1.8 存儲並檢索MongoDB18
1.9 使用OpenRefine打開並轉換資料20
1.10 使用OpenRefine探索資料23
1.11 排重25
1.12 使用規則運算式與GREL清理資料27
1.13 插補缺失值28
1.14 將特徵規範化、標準化29
1.15 分級數據30
1.16 編碼分類變數32

第2章 探索資料34
2.1 導論34
2.2 生成描述性的統計資料34
2.3 探索特徵之間的相關性37
2.4 視覺化特徵之間的相互作用38
2.5 生成長條圖43
2.6 創建多變數的圖表46
2.7 數據取樣49
2.8 將資料集拆分成訓練集、交叉驗證集和測試集51

第3章 分類技巧53
3.1 導論53
3.2 測試並比較模型53
3.3 樸素貝葉斯分類器56
3.4 將邏輯回歸作為通用分類器使用58
3.5 將支援向量機用作分類引擎61
3.6 使用決策樹進行分類65
3.7 使用隨機森林預測訂閱者69
3.8 使用神經網路對呼叫進行分類72

第4章 聚類技巧79
4.1 導論79
4.2 評估聚類方法的表現79
4.3 用k均值演算法聚類資料82
4.4 為k均值演算法找到最優的聚類數84
4.5 使用mean shift聚類模型發現聚類90
4.6 使用c均值構建模糊聚類模型91
4.7 使用層次模型聚類資料93
4.8 使用DBSCAN和BIRCH演算法發現潛在的訂閱者96

第5章 降維99
5.1 導論99
5.2 創建三維散點圖,顯示主成分99
5.3 使用核PCA降維102
5.4 用主成分分析找到關鍵因素105
5.5 使用隨機PCA在資料中尋找主成分109
5.6 使用線性判別分析提取有用的維度114
5.7 用kNN分類模型給電話分類時使用多種降維技巧117

第6章 回歸模型122
6.1 導論122
6.2 識別並解決資料中的多重共線性124
6.3 構建線性回歸模型128
6.4 使用OLS預測生產的電量134
6.5 使用CART估算發電廠生產的電量138
6.6 將kNN模型用於回歸問題141
6.7 將隨機森林模型用於回歸分析143
6.8 使用SVM預測發電廠生產的電量145
6.9 訓練神經網路,預測發電廠生產的電量151
第7章 時間序列技術154
7.1 導論154
7.2 在Python中如何處理日期物件155
7.3 理解時間序列資料159
7.4 平滑並轉換觀測值163
7.5 過濾時間序列資料166
7.6 移除趨勢和季節性169
7.7 使用ARMA和ARIMA模型預測未來173

第8章 圖181
8.1 導論181
8.2 使用NetworkX在Python中處理圖物件182
8.3 使用Gephi將圖視覺化190
8.4 識別信用卡資訊被盜的使用者200
8.5 識別誰盜竊了信用卡204

第9章 自然語言處理207
9.1 導論207
9.2 從網路讀入原始文本208
9.3 標記化和標準化212
9.4 識別詞類,處理n-gram,識別命名實體218
9.5 識別文章主題224
9.6 識別句子結構226
9.7 根據評論給影片歸類229

第10章 離散選擇模型233
10.1 導論233
10.2 準備資料集以估算離散選擇模型235
10.3 估算知名的多項Logit模型239
10.4 測試來自無關選項的獨立性衝突244
10.5 用巢式Logit模型處理IIA衝突249
10.6 用混合Logit模型處理複雜的替代模式251

第11章 模擬254
11.1 導論254
11.2 使用SimPy模擬加油站的加油過程255
11.3 模擬電動車耗盡電量的場景264
11.4 判斷羊群面對群狼時是否有團滅的風險269