《資料分析與視覺化》主要介紹目前流行的數據分析和資料視覺化工具,首先介紹資料分析“三劍客”,即NumPy、Matplotlib和Pandas。NumPy側重於科學計算,Matplotlib側重於資料視覺化,Pandas側重於資料分析。然後介紹微軟推出的互動式資料分析和可視化工具PowerBI。
《資料分析與視覺化》分為上篇和下篇,上篇介紹使用Python實現資料的分析和視覺化,通過4個專案介紹NumPy、Matplotlib和Pandas的使用。下篇共4個項目,介紹使用微軟的PowerBIDesktop實現資料的分析和視覺化。
《資料分析與視覺化》適合作為高職院校大資料、人工智慧等專業資料分析和視覺化課程的教材,也可作為《人工智慧資料處理》1+X證書的學習用書,同時也適合資料分析初學者、數據分析愛好者、資料分析工程師以及相關培訓機構學員學習。
上篇 Python資料分析與視覺化
項目1 使用NumPy分析空氣品質狀況
任務1.1 項目需求分析
任務1.2 環境搭建
1.2.1 開發環境介紹
1.2.2 Anaconda下載和安裝
1.2.3 PyCharm整合式開發環境下載和安裝
任務1.3 資料獲取
1.3.1 通過網路爬蟲爬取
1.3.2 直接從網站下載
任務1.4 資料預處理
1.4.1 讀取數據
1.4.2 合併多個資料集
1.4.3 ndarray資料結構
1.4.4 去除冗餘數據
1.4.5 資料持久化存儲
任務1.5 科學計算
1.5.1 獲取任意範圍的樣本資料
1.5.2 計算特徵的 小值、 值和平均值
1.5.3 統計不同空氣品質等級的天數
1.5.4 預測空氣品質
小結
課後習題
項目2 使用Matplotlib實現空氣質量數據視覺化
任務2.1 項目需求分析
任務2.2 折線圖:展現AQI走勢
2.2.1 實現AQI走勢折線圖
2.2.2 圖形的優化和美化
2.2.3 添加注釋
任務2.3 橫條圖:展現PM2.5走勢
2.3.1 橫條圖:某月PM2.5的走勢情況
2.3.2 堆疊橫條圖:相鄰月份PM2.5值的比較
2.3.3 並排橫條圖:PM2.5和PM10的比較
任務2.4 散點圖:展現內在相關性
任務2.5 子圖:展現圖表的多樣性
任務2.6 圓形圖:展現部分和整體的關係
小結
課後習題
專案3 使用Pandas分析股票交易資料
任務3.1 項目需求分析
任務3.2 資料獲取和存儲
3.2.1 資料獲取
3.2.2 資料存儲
任務3.3 資料讀取
3.3.1 讀取CSV檔中的資料
3.3.2 讀取Excel檔中的資料
3.3.3 獲取MySQL資料庫中的資料
任務3.4 資料簡單處理
3.4.1 常用屬性