本書包括兩部分內容,第壹部分重點介紹了與Python語言相關的資料分析工具,包括NumPy、Matplotlib、Pandas、Scipy、Seaborn和Sklearn。第二部分介紹資料處理、特徵工程、評價指標、線性模型、支援向量機、K近鄰演算法、樸素貝葉斯、決策樹、K-Means演算法和文本分析實例。附錄提供了課程教學大綱和部分課後習題答案。
本書內容精練、文字簡潔、結構合理、實訓題目經典實用、綜合性強、定位明確,面向初、中級讀者,由“入門”起步,側重“提高”。特別適合作為高等院校相關專業資料分析與機器學習課程的入門教材或教學參考書,也可以供從事電腦應用開發的各類技術人員參考。
前言
第1章Python與資料分析
11概述
111引例
112資料分析與資料採擷
12Python簡介
121Python特點
122Python應用場合
13資料分析流程
131明確目標
132獲取資料
133清洗數據
134特徵工程
135構建模型
136模型評估
14資料分析庫
141NumPy
142Matplotlib
143Pandas
144Seaborn
145Scipy
146Sklearn
15Python解譯器
151Ubuntu下安裝Python
152Windows下安裝Python
16Python編輯器
161IDLE
162VScode
163PyCharm
164Anaconda
165Jupyter
17習題
第2章NumPy——資料分析基礎工具
21安裝NumPy
22ndarray對象
221認識ndarray物件
222ndarray物件屬性
23創建ndarray對象
231zeros
232ones
233diag
234arange
235linspace
236logspace
24陣列變換
241維度變換
242陣列拼接
243陣列分割
244陣列複製
25索引和切片
26線性代數
261矩陣運算
262矩陣轉置
263特徵根和特徵向量
27統計量
271平均值
272 值
273中位數
274極差
275方差
276協方差
277皮爾森相關係數
28習題
第3章Matplotlib——數據視覺化工具
31安裝Matplotlib
32繪圖步驟
321創建畫布
322繪圖函數
323繪圖屬性
33子圖基本操作
331plt眘ubplot
332figure盿dd_subplot
333plt眘ubplots
34繪圖
34 線圖
342氣泡圖
343圓形圖
344長條圖
345橫條圖
35概率分佈
351泊松分佈
352正態分佈
353均勻分佈
354二項分佈
36習題
第4章Pandas——資料處理工具
41認識Pandas
42Series
421創建Series
422 Series屬性
423訪問Series資料
43操作Series
431 新Series
432插入Series
433刪除Series
44DataFrame
441創建DataFrame
442DataFrame屬性
443選取行列資料
45操作DataFrame
451 新DataFrame
452插入DataFrame
453刪除DataFrame
46Index
461創建Index
462常用屬性
463常用方法
464重建Index
47視覺化
471線形圖
472橫條圖
473餅狀圖
474長條圖與密度圖
48資料轉換
481資料值替換
482資料映射
483資料值合併
484資料值補充
485數據離散化
49資料分組與聚合
491資料分組
492數據聚合
410讀取外部資料
4101操作Excel
4102操作文字檔
4103操作資料庫
411習題
第5章Scipy——資料統計工具
51認識Scipy
52疏鬆陣列
53線性代數
531矩陣運算
532線性方程組求解
54數據優化
541非線性方程組求解
542函數 值
543 小二乘法
55資料分佈
551泊松分佈
552正態分佈
553均勻分佈
554二項分佈
555指數分佈
56統計量
561眾數
562皮爾森相關係數
57影像處理
571旋轉圖像
572圖像濾波
573邊緣檢測
58習題
第6章Seaborn——數據視覺化工具
61認識Seaborn
611繪圖特色
612圖表分類
613資料集
62繪圖設置
621繪圖元素
622主題
623調色板
63繪圖
631長條圖
632核密度圖
633小提琴圖
634分類散點圖
635橫條圖
636熱力圖
637點圖
64習題
第7章Sklearn——機器學習工具
71Sklearn簡介
72安裝Sklearn
73資料集
731小資料集
732大資料集
733生成資料集
74機器學習流程
741數據清洗
742劃分資料集
743特徵工程
744機器演算法
745模型評估
75習題
第8章資料處理
81認識資料處理
82數據清洗
821處理缺失值
822處理異常值
823處理重複值
83特徵處理
831規範化
832標準化
833魯棒化
84資料分析可視庫
841missingno庫
842詞雲
85案例——學生資訊清洗
86習題
第9章特徵工程
91認識特徵工程
92獨熱編碼
93特徵提取
931DictVectorizer
932CountVectorizer
933TfidfVectorizer
94中文分詞
941Jieba分詞庫
942停用詞表
95案例——中文特徵提取
96習題
第10章評價指標
101欠擬合和過擬合
1011欠擬合
1012過擬合
102曲線擬合
1021polyfit方法
1022Curve_fit方法
103分類評價指標
1031混淆矩陣
1032準確率
1033 率
1034召回率
1035F1 Score
1036ROC曲線
1037AUC面積
1038分類評估報告
104回歸評價指標
1041均方誤差
1042相關係數或者R2
105案例——手寫數字資料集評價指標
106習題
第11章線性模型
111回歸模型
1111線性回歸
1112邏輯回歸
112兩種求解方法
1121 小二乘法
1122梯度下降法
113嶺回歸
1131認識嶺回歸
1132參數alpha
114案例
1141線性回歸預測披薩價格
1142線性回歸與嶺回歸識別糖尿病
115習題
第12章支持向量機
121初識向量機
1211超平面線性方程
1212SVM演算法庫
122核函數
1221線性核函數
1222多項式核函數
1223高斯核函數
123參數調優
1231gamma參數
1232懲罰係數C
124回歸問題
125案例
1251支援向量機識別鳶尾花
1252支援向量機預測波士頓房價
126習題
第13章K近鄰演算法
131初識K近鄰演算法
1311演算法思想
1312演算法描述
132選擇K值
133距離度量
134分類問題
135回歸問題
136案例
1361KNN區分電影類型
1362KNN識別鳶尾花
137習題
第14章樸素貝葉斯
141初識樸素貝葉斯
142貝葉斯定理
143流程
144分類
1441高斯分佈
1442多項式分佈
1443伯努利分佈
145案例
1451樸素貝葉斯識別鳶尾花
1452樸素貝葉斯分類新聞
146習題
第15章決策樹
151初識決策樹
152資訊理論
1521信息熵
1522條件熵
1523信息增益
1524互信息
1525基尼係數
153決策樹演算法
1531ID3演算法
1532C45演算法
1533CART演算法
154分類與回歸
1541分類問題
1542回歸問題
1543調優max_depth參數
155集成分類模型
1551隨機森林
1552梯度提升決策樹
156graphviz與DOT
1561graphviz
1562DOT語言
157案例
1571決策樹決定是否賴床
1572決策樹預測波士頓房價
158習題
第16章K-Means演算法
161初識K-Means
162實現K-Means聚類
1621理論實現K-Means聚類
1622Python實現K-Means聚類
1623Sklearn實現K-Means聚類
163K-Means評估指標
1631調整蘭德係數
1632輪廓係數
164案例
1641K-Means聚類鳶尾花
1642K-Means標記質心
165習題
第17章文本分析示例
171規則運算式
1711基本語法
1712re模組
1713提取電影資訊
172LDA
1721LDA原理
1722Gensim庫
173距離演算法
1731余弦相似度
1732編輯距離
174SimHash演算法
1741演算法思想
1742實現步驟
175文本情感分析
1751情感分析
1752SnowNLP
176案例——電影影評情感分析
177習題
附錄
附錄A課程教學大綱
附錄B部分課後習題答案
參考文獻