会员   密码 您忘记密码了吗?
1,656,036 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > 數據挖掘:原理與實踐基礎篇
數據挖掘:原理與實踐基礎篇
上一张
下一张
prev next

數據挖掘:原理與實踐基礎篇

作者: (美)查魯·C.阿加沃爾
出版社: 機械工業出版社
ISBN: 9787111670292
出版日期: 2021-01-01
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT834.00
市场价格: RM149.93
本店售价: RM133.44
促销价: RM125.94
剩余时间: 请稍等, 正在载入中...
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

全書理論聯繫實際,全面講述數據挖據理論、技術及應用的教材。研討了數據挖掘的方方面面,從基礎理論到複雜數據類型及其應用。不僅討論傳統的數據挖掘問題,而且介紹了高級數據類型,例如文本、時間序列、離散序列、空間數據、圖數據和社會網路。本書由基礎篇和進階篇組成。基礎篇對應原書的第1~11章,進階篇對應原書的第12~20章。


作者介紹

查魯·C. 阿加沃爾(Charu C. Aggarwal)

是IBM T. J. Watson研究中心的傑出研究人員,于1996年獲麻省理工學院博士學位。他對數據挖掘領域有著廣泛的研究,在國際會議和期刊上發表了250多篇論文,擁有80多項專利。他曾三次被評為IBM的“傑出發明人”,並曾獲得IBM公司獎、IBM傑出創新獎和兩項IBM傑出技術成就獎。他因為提出基於冷凝的數據挖掘中的隱私保護技術而獲得EDBT2014的時間檢驗獎。他還獲得了IEEE ICDM研究貢獻獎(2015),這是數據挖掘領域對具有突出貢獻的研究的兩個最高獎項之一。

他曾多次擔任ACM/IEEE知名國際學術會議的主席或程式委員會主席,並擔任大數據相關多個知名期刊的主編或編委。由於在知識發現和數據挖掘演算法上的貢獻,他入選SIAM、ACM和IEEE的會士。


目錄

出版者的話
譯者序
前言

第1章 數據挖掘導論1
1.1 引言1
1.2 數據挖掘過程2
1.2.1 數據預處理階段4
1.2.2 分析階段5
1.3 基本數據類型5
1.3.1 非依賴型數據5
1.3.2 依賴型數據7
1.4 主要數據挖掘模組總覽11
1.4.1 關聯模式挖掘12
1.4.2 數據聚類13
1.4.3 異常檢測13
1.4.4 數據分類14
1.4.5 複雜數據類型對問題定義的影響15
1.5 可擴展性問題和數據流場景17
1.6 應用案例淺述17
1.6.1 商店商品佈局17
1.6.2 客戶推薦18
1.6.3 醫療診斷18
1.6.4 Web日誌異常檢測19
1.7 小結19
1.8 文獻注釋19
1.9 練習題20

第2章 數據準備21
2.1 引言21
2.2 特徵提取和類型轉換22
2.2.1 特徵提取22
2.2.2 數據類型轉換23
2.3 數據清洗26
2.3.1 缺失項的處理27
2.3.2 錯誤項和不一致項的處理28
2.3.3 縮放與標準化29
2.4 數據約簡和轉換29
2.4.1 採樣30
2.4.2 特徵子集選取32
2.4.3 基於坐標軸旋轉的維度約簡32
2.4.4 基於類型轉換的降維39
2.5 小結47
2.6 文獻注釋48
2.7 練習題48

第3章 相似度和距離50
3.1 引言50
3.2 多維數據50
3.2.1 定量型數據51
3.2.2 類別型數據58
3.2.3 定量型和類別型的混合數據59
3.3 文本相似性度量60
3.4 時態的相似性度量61
3.4.1 時間序列相似性度量61
3.4.2 離散序列相似性度量65
3.5 圖的相似性度量67
3.5.1 單個圖中兩個節點之間的相似度67
3.5.2 兩個圖之間的相似度68
3.6 有監督的相似度函數69
3.7 小結70
3.8 文獻注釋70
3.9 練習題71

第4章 關聯模式挖掘73
4.1 引言73
4.2 頻繁模式挖掘模型74
4.3 關聯規則的生成框架76
4.4 頻繁項集挖掘算法77
4.4.1 暴力算法78
4.4.2 Apriori算法78
4.4.3 枚舉樹算法81
4.4.4 遞迴的基於尾碼的模式生長方法89
4.5 替代模型:有趣模式96
4.5.1 統計相關係數97
4.5.2 χ2度量97
4.5.3 興趣比率98
4.5.4 對稱置信度98
4.5.5 列的余弦係數98
4.5.6 Jaccard係數和min-hash技巧98
4.5.7 集體強度100
4.5.8 與負模式挖掘的關係100
4.6 有用的元算法100
4.6.1 採樣方法101
4.6.2 數據劃分集成法101
4.6.3 推廣到其他數據類型101
4.7 小結102
4.8 文獻注釋102
4.9 練習題104

第5章 關聯模式挖掘:高級概念106
5.1 引言106
5.2 模式匯總106
5.2.1 最大模式107
5.2.2 閉包模式108
5.2.3 近似頻繁模式109
5.3 模式查詢110
5.3.1 一次預處理多次查詢111
5.3.2 把限制條件放入模式挖掘115
5.4 關聯模式挖掘的應用115
5.4.1 與其他數據挖掘問題的關係115
5.4.2 購物籃分析116
5.4.3 使用者資訊分析116
5.4.4 推薦和協同過濾116
5.4.5 Web日誌分析117
5.4.6 生物資訊學117
5.4.7 應用於其他複雜數據類型117
5.5 小結118
5.6 文獻注釋118
5.7 練習題119

第6章 聚類分析120
6.1 引言120
6.2 聚類的特徵選取121
6.2.1 過濾模型121
6.2.2 包裝模型124
6.3 基於代表點的算法124
6.3.1 k-means算法127
6.3.2 k-means內核算法128
6.3.3 k-medians算法128
6.3.4 k-medoids算法129
6.4 層次聚類算法130
6.4.1 自底向上凝聚的方法131
6.4.2 自頂向下分裂的方法135
6.5 基於概率模型的算法135
6.6 基於網格和基於密度的算法139
6.6.1 基於網格的算法139
6.6.2 DBSCAN141
6.6.3 DENCLUE143
6.7 基於圖的算法147
6.8 非負矩陣分解149
6.9 聚類驗證153
6.9.1 內部驗證度量153
6.9.2 外部驗證度量155
6.9.3 評價158
6.10 小結158
6.11 文獻注釋158
6.12 練習題159

第7章 聚類分析:高級概念161
7.1 引言161
7.2 類別型數據的聚類162
7.2.1 基於代表點的算法162
7.2.2 層次算法164
7.2.3 概率算法165
7.2.4 基於圖的算法166
7.3 可擴展的數據聚類167
7.3.1 CLARANS167
7.3.2 BIRCH168
7.3.3 CURE169
7.4 高維數據聚類170
7.4.1 CLIQUE172
7.4.2 PROCLUS172
7.4.3 ORCLUS174
7.5 半監督聚類176
7.5.1 單點監督177
7.5.2 成對監督177
7.6 用戶監督聚類與視覺化監督聚類178
7.6.1 現有聚類算法的變體178
7.6.2 視覺化聚類179
7.7 集成聚類181
7.7.1 選擇不同的集成組件181
7.7.2 組合不同的集成元件182
7.8 聚類應用183
7.8.1 應用到其他數據挖掘問題183
7.8.2 客戶分類與協同過濾183
7.8.3 文本應用184
7.8.4 多媒體應用184