会员   密码 您忘记密码了吗?
1,583,356 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > 數據倉庫與商業智能寶典(第2版):成功設計、部署和維護DW/BI系統
數據倉庫與商業智能寶典(第2版):成功設計、部署和維護DW/BI系統
上一张
下一张
prev next

數據倉庫與商業智能寶典(第2版):成功設計、部署和維護DW/BI系統

作者: (美)拉爾夫·金博爾等
出版社: 清華大學出版社
出版日期: 2017-08-01
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT708.00
市场价格: RM127.28
本店售价: RM113.28
促销价: RM106.92
剩余时间: 请稍等, 正在载入中...
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

作為數據倉庫和商業智能(DW/BI)行業中最有影響力的領軍人物,Ralph Kimball、Margy Ross得到了世界范圍內的認可和尊重,他們在《數據倉庫與商業智能寶典(第1版)》中確立了行業標准。現在,在《數據倉庫與商業智能寶典(第2版) 成功設計、部署和維護DW/BI系統》中已經更新了65篇DesignTip和白皮書,從而匯集了DW/BI技術創新前沿的著作。

從項目規划和需求收集,到維度建模、ETL和BI應用,本書涵蓋了你在數據倉庫和商業智能中將會遇到的所有內容。這些無與倫比的文章提供了成功地設計、部署和維護DW/BI系統的重要建議。

主要內容:
◆ 啟動DW/BI項目和收集需求的注意事項
◆ 集成式企業數據倉庫的必備要素,其中包括總線架構和

矩陣
◆ 事實表的粒度性和三種基本類型
◆ 漸變維度技術
◆ 星型模式、外支架和橋接表
◆ 維度建模高級模式
◆ 提取、轉換和加載(ETL)子系統與數據質量
◆ BI應用很好實踐
◆ 大數據注意事項

無論你正以何種身份參與數據倉庫或商業智能項目,這
本可輕易參考和最近更新的寶典可謂無價之寶。

Ralph Kimball創立了Kimball Group。自20世紀80年代中期開始,他就一直是DW/BI行業關於維度化方法的思想領袖,並且已經培訓了超過20 000名IT專家。在任職於Metaphor和創立Red Brick Systems之前,Ralph在施樂帕克研究中心(Xerox PARC)參與創建了Star工作站。Ralph擁有斯坦福大學電子工程專業的博士學位。


目錄

第1章 讀本概覽 1
1.1 抑制住立即開始編碼的沖動 1
1.2 設置邊界 3
1.3 數據爭奪 5
1.4 流言終結者 7
1.5 划分數據世界 9
1.6 集成式企業數據倉庫的必要步驟 10
1.6.1 集成式EDW會交付什麼 11
1.6.2 集成的終極試金石 11
1.6.3 組織挑戰 12
1.6.4 一致化維度和事實 12
1.6.5 使用總線矩陣與管理層交流 12
1.6.6 管理集成式EDW的主干 13
1.6.7 維度管理器 14
1.6.8 事實提供者 15
1.6.9 配置商業智能(BI)工具 16
1.6.10 連帶責任 17
1.7 鑽取以尋求原因 17
1.8 漸變維度 19
1.8.1 漸變維度的三種原生類型 20
1.8.2 高級漸變維度 22
1.9 通過維度評價BI工具 22
1.10 事實表 24
1.10.1 忠實於粒度 24
1.10.2 從最低的可能粒度進行構建 25
1.10.3 三類事實表 25
1.11 開發利用事實表 26
1.11.1 前端:聚合導航 26
1.11.2 前端:鑽取不同的粒度 26
1.11.3 前端:將約束暴露給不同的業務過程 26
1.11.4 后端:事實表代理鍵 27

第2章 深入研究之前 29
2.1 Ralph Kimball和施樂帕克研究中心(Xerox PARC) 29
2.2 數據庫市場分化 31
2.3 提出超市概念(Kimball經典) 33
2.3.1 危機規划 33
2.3.2 具有架構的數據集市 34
2.3.3 一致化維度的重要性 34
2.3.4 設計一致化維度 35
2.3.5 做出承諾 36
2.3.6 允許的一致化維度變體 36
2.3.7 建立標准事實定義 36
2.3.8 粒度的重要性 37
2.3.9 更高級別的數據集市 38
2.3.10 解決煙囪問題 38
2.3.11 不需要一致化維度的情形 38
2.3.12 清晰視角 39
2.4 數據倉庫的全新需求 39
2.5 應對全新需求 42
2.5.1 數據集市和維度建模 42
2.5.2 將數據集市插入數據倉庫總線架構中 44
2.6 挑起事端 46
2.7 設計約束和不可避免的現實 49
2.7.1 設計約束 49
2.7.2 不可避免的現實 50
2.7.3 擺脫困境 51
2.8 兩個強有力的觀點 52
2.8.1 分離系統 52
2.8.2 對稱的星型結構和多維數據集 53
2.8.3 巨大的回報 54
2.8.4 我們已經取得了什麼成果 54
2.9 數據倉庫就餐體驗(Kimball經典) 54
2.9.1 廚房 55
2.9.2 就餐區 56
2.10 用於更艱難問題的更簡單方法 57
2.10.1 增量集成 57
2.10.2 遞增的數據質量 58
2.11 擴展數據倉庫的邊界 58

第3章 項目/程序規划 61
3.1 專家邊界 61
3.2 工程師的觀點 63
3.2.1 數據倉庫使命 64
3.2.2 設計驅動 65
3.2.3 設計約束 65
3.2.4 工程師的回應 66
3.3 當心異議消除者 66
3.4 中央團隊要做些什麼 69
3.4.1 定義和發布共享維度 70
3.4.2 提供跨部門的應用程序 71
3.4.3 定義一致化數據倉庫安全性架構 72
3.5 避免隔離的DW和BI團隊 72
3.6 BI和數據倉庫專家可用的、更好的業務技能 73
3.6.1 建立對業務的理解 73
3.6.2 建立人際交往能力 73
3.6.3 掌握公開演講技巧 74
3.6.4 掌握書面溝通技巧 74
3.6.5 實踐決定一切 75
3.7 有風險的項目資源就是有風險的業務 75
3.8 無法實現分析 76
3.9 包含DW/BI范圍蔓延並且避免范圍冒用 77
3.10 IT過程對於DW/BI項目是否有益 79
3.10.1 規范 79
3.10.2 命名規范 79
3.10.3 教條主義 80
3.11 有效主辦者的行為 80
3.11.1 為成功做准備 81
3.11.2 抵制阻力最小的路徑 81
3.11.3 團結周邊可用資源 82
3.11.4 耐心是一種美德 82
3.11.5 保持對目標的專注 83
3.12 從終端用戶開始計算的總體擁有成本(Kimball經典) 83
3.12.1 不好的決策也是成本 83
3.12.2 仔細查看這些成本 84
3.13 簡要概括Kimball生命周期 87
3.13.1 程序/項目規划和管理 88
3.13.2 業務需求 88
3.13.3 技術軌跡 88
3.13.4 數據軌跡 88
3.13.5 商業智能軌跡 89
3.13.6 部署、維護和發展 89
3.14 挺身而出 89
3.15 持相反意見的架構師 90
3.16 在應用最佳實踐時慎重思考 93
3.16.1 采取一種企業方法 93
3.16.2 擁抱商業智能 93
3.16.3 設計維度模式 93
3.16.4 將一致化維度用於集成 94
3.16.5 仔細規划ETL架構 94
3.17 低風險企業數據倉庫的八個准則 95
3.17.1 做正確的事情 95
3.17.2 賦予業務用戶控制權 96
3.17.3 漸進式處理 96
3.17.4 從輕量級、專注的治理開始 96
3.17.5 構建一個簡單、通用的平台 97
3.17.6 使用一致化維度來集成 97
3.17.7 每次都用一些過濾來管理質量 97
3.17.8 自始至終使用代理鍵 97

第4章 需求定義 99
4.1 將Alan Alda的訪問技巧用於揭示業務需求(Kimball經典) 99
4.1.1 保持好奇心,但不要自作聰明 100
4.1.2 要口語式對話 100
4.1.3 傾聽並且期望被改變 101
4.2 業務需求收集的更多注意事項 102
4.3 平衡需求與現實(Kimball經典) 104
4.4 在收集業務需求時克服障礙 105
4.5 令人吃驚的數據剖析價值 106
4.6 專注於業務過程,而非業務部門 108
4.7 識別業務過程 109
4.8 業務過程全面揭秘 110
4.9 戰略業務舉措和業務過程之間的關系 111
4.10 自下而上屬於用詞不當 112
4.10.1 專注於企業,而非部門 112
4.10.2 起草企業數據倉庫總線矩陣 112
4.10.3 進行優先級排序以便得到一份有序的結論 113
4.10.4 繪制企業路線圖 115
4.11 (超越數據建模的)維度化思維 115
4.12 使用維度模型驗證業務需求 116

第5章 數據架構 119
5.1 ER建模是否對DSS有害(Kimball經典) 119
5.2 一個維度建模宣言(Kimball經典) 122
5.2.1 什麼是3NF標准化建模 122
5.2.2 什麼是DM 124
5.2.3 DM與3NF的對比 125
5.2.4 DM的優勢 126
5.2.5 對DM的誤解 127
5.2.6 捍衛DM 128
5.3 沒有百分百的保證 128
5.3.1 3NF建模是否會處理業務規則嗎 129
5.3.2 早期維度建模 130
5.4 分而治之 131
5.4.1 是否需要通用標簽 132
5.4.2 業務過程主題領域並不是部門化的 132
5.4.3 一致化維度和事實 132
5.4.4 數據倉庫總線架構 133
5.4.5 是否僅僅為了高度分布式系統 133
5.4.6 凈收益 134
5.5 矩陣(Kimball經典) 134
5.5.1 邀請主題領域小組參加
一致化會議 136
5.5.2 與老板進行溝通 136
5.5.3 二級主題領域 136
5.6 再次探討矩陣(Kimball經典) 137
5.6.1 用於引用數據的矩陣列 137
5.6.2 數據管理 137
5.6.3 以過程為中心的行 138
5.6.4 關聯列和行 138
5.6.5 常見的矩陣不幸事件 139
5.6.6 矩陣擴展 139
5.7 向下鑽取到詳細的總線矩陣中 140
5.8 關於敏捷方法論 142
5.9 敏捷企業數據倉庫是不是一個矛盾混合體 143
5.10 采用敏捷方法?先要從總線矩陣開始 144
5.11 作為敏捷數據倉庫基礎的一致化維度 145
5.12 為現實中的人而集成 146
5.12.1 定義集成 146
5.12.2 集成標簽 147
5.12.3 集成測量 147
5.12.4 維度管理者的職責 148
5.12.5 事實提供者的職責 148
5.13 為企業維度構建即時可用的資源 149
5.14 數據管理基礎知識:質量和一致性的第一步 150
5.14.1 為何管理是必要的 150
5.14.2 管理職責 151
5.14.3 管理的正確舉措 152
5.14.4 溝通工具和技術 152
5.14.5 如何開始 152
5.15 要不要集中化 153
5.15.1 閃光的未必都是金子 153
5.15.2 不要畏懼偉大 154
5.15.3 結果好意味着一切都好 155
5.16 觀點差異(Kimball經典) 155
5.16.1 共同之處 155
5.16.2 Kimball總線架構 156
5.16.3 企業信息工廠 157
5.16.4 根本性差異 158
5.16.5 混合方法怎麼樣 159
5.16.6 成功標准 159
5.17 庸人自擾 160
5.18 不要用一個標准化EDW支持商業智能 160
5.19 使用維度展示區域補充3NF EDW 162

第6章 維度建模基礎 165
6.1 事實表和維度表 165
6.1.1 測量和上下文 165
6.1.2 維度鍵 166
6.1.3 把兩個建模方法關聯起來 167
6.1.4 聲明粒度 167
6.1.5 可累加事實 167
6.1.6 退化維度 168
6.2 向下、向上和橫向鑽取 168
6.2.1 向下鑽取 168
6.2.2 向上鑽取 170
6.2.3 橫向鑽取 170
6.3 數據倉庫的靈魂之第一部分:向下鑽取 171
6.4 數據倉庫的靈魂之第二部分:橫向鑽取 173
6.4.1 實現橫向鑽取 174
6.4.2 令人驚訝的神奇之處 175
6.5 數據倉庫的靈魂之第三部分:時間處理 175
6.5.1 時間的有效性 176
6.5.2 正確關聯 176
6.5.3 自然粒度 177
6.5.4 是否兌現了承諾 178
6.6 優雅修改已有的事實和維度表 178
6.7 Kimball關於維度建模的十項必要規則(Kimball經典) 179
6.8 不該做的事情 181
6.9 危險的先入為主的想法 183
6.10 虛言和事實 185
6.10.1 並非所有的維度模型都是同等創建的 185
6.10.2 專注於測量過程,而非部門報告 185
6.10.3 從原子詳情開始,而非匯總數據 186
6.10.4 目標是集成,而非標准化 187

第7章 維度建模任務和職責 189
7.1 讓用戶安然入眠 189
7.2 用於設計維度模型的實踐步驟 194
7.2.1 參與其中 195
7.2.2 深究細節 195
7.2.3 審核結果 196
7.3 為維度建模團隊配置人員 197
7.4 讓業務代表參與到維度建模中 198
7.5 管理大型維度設計團隊 199
7.6 使用設計章程讓維度建模活動處於正軌 200
7.7 命名博弈 201
7.7.1 步驟1:准備 201
7.7.2 步驟2:創建一個初始名稱集 202
7.7.3 步驟3:建立共識 202
7.8 名稱的意義 202
7.9 維度設計何時算結束 204
7.10 設計評審注意事項(Kimball經典) 206
7.11 大把的缺點 207
7.11.1 粒度是什麼 207
7.11.2 是否存在混合粒度或文本事實 208
7.11.3 是否有維度描述符和解碼 208
7.11.4 層次結構如何處理 208
7.11.5 是否采用顯式日期維度 209
7.11.6 是否將控制編號作為退化維度 209
7.11.7 是否使用代理鍵 209
7.11.8 是否采用漸變維度策略 210
7.11.9 是否很好地理解了業務需求 210
7.12 對維度數據倉庫進行評分 210
7.12.1 架構標准 210
7.12.2 管理標准 211
7.12.3 表述標准 212
7.12.4 是否具有維度化思想 214

第8章 事實表核心概念 215
8.1 聲明粒度 215
8.1.1 業務術語中的表達 216
8.1.2 巨大的影響 216
8.1.3 保持事實忠實於粒度 217
8.2 在維度建模中保持粒度 218
8.3 警告:匯總數據可能會
有害健康 219
8.4 再微小的細節都是需要的 220
8.4.1 累積原子數據 220
8.4.2 跨過程合並 220
8.4.3 性能越高,維度性越低 220
8.4.4 合並事實表示例 221
8.4.5 累計式快照示例 221
8.4.6 細節至上 222
8.5 基礎粒度 223
8.5.1 基礎粒度 223
8.5.2 我們要如何使用每一個事實表類型 225
8.6 使用累計式快照對管道進行建模 225
8.7 合並定期和累計式快照 228
8.8 互補的事實表類型 228
8.8.1 事務事實表 229
8.8.2 定期快照事實表 229
8.8.3 累計式快照事實表 230
8.9 對時間段進行建模 230
8.10 在現在和過去對未來進行滾動預測 232
8.11 時間段累計式快照事實表 235
8.12 是維度還是事實,抑或兩者都是 236
8.13 非事實型事實表 237
8.14 非事實型事實表聽起來像不像沒有帆的帆船 239
8.15 哪些事情還沒發生 240
8.15.1 覆蓋范圍表 241
8.15.2 用於未發生行為的明確記錄 241
8.15.3 用NOT EXISTS搜索不存在的事實 241
8.15.4 使用NOT EXISTS找到還不存在的屬性 242
8.16 追求簡化的非事實型事實表 243
8.17 管理父數據 244
8.17.1 有爭議的分配機制 246
8.17.2 艱難的分配環境 246
8.18 在建模標題/行項目事務時要避免的模式 247
8.18.1 糟糕的主意#1:將標題保存成維度 247
8.18.2 糟糕的主意#2:行項目不繼承標題維度性 247
8.18.3 標題/行項目事務的推薦結構 248
8.19 事實表代理鍵 249
8.20 關於事實表代理鍵的讀者建議 249
8.21 再談退化維度 251
8.22 為極少訪問的退化項創建一個引用維度 252
8.23 規范事實表 253
8.24 將文本保存在事實表外 254
8.25 處理維度模型中的空值 255
8.25.1 作為事實表外鍵的空值 255
8.25.2 作為事實的空值 256
8.25.3 作為維度屬性的空值 256
8.26 將數據同時建模為事實和維度屬性 256
8.27 事實表何時可被用作維度表 257
8.28 稀疏事實和具有較短生命周期的事實 258
8.29 用事實維度讓事實表成為中心 260
8.30 用於復雜工作流的累計式快照(Kimball經典) 261

第9章 維度表核心概念 263
9.1 代理鍵(Kimball經典) 263
9.2 保持鍵的簡單性 266
9.3 持久的「超自然」鍵 267
9.4 是時候談談時間了 269
9.4.1 基礎時間問題 269
9.4.2 中間時間問題 270
9.5 用於時間維度的代理鍵 271
9.6 對時間維度表的最新思考 272
9.7 將智能日期鍵用於分區事實表 274
9.8 更新日期維度 275
9.9 處理所有的日期 275
9.10 為空值選擇默認值(Kimball經典) 277
9.11 數據倉庫角色模型 278
9.12 神秘維度 281
9.12.1 找到明顯的與維度有關的字段 281
9.12.2 找出與事實有關的字段 282
9.12.3 決定對其余字段的處理 282
9.12.4 將神秘字段轉換成神秘維度 283
9.13 整理雜項維度 284
9.14 顯示維度之間的相關性 284
9.15 因果性(非因果性)維度(Kimball經典) 285
9.16 抵制抽象的通用維度 288
9.17 熱插拔維度 289
9.18 精確統計維度增補項的數量 290
9.19 使用類型2 SCD的完美分區歷史 291
9.20 許多交替的現實 292
9.20.1 可預測的多種現實 293
9.20.2 不可預測的多種現實 294
9.21 龐然大物般的維度 295
9.22 當漸變維度加速時 297
9.22.1 漸變維度中的日期戳 297
9.22.2 並非緩慢變化的SCD 297
9.23 維度何時會變得危險 298
9.24 漸變維度並非總是像類型1、
類型2和類型3那樣簡單
(Kimball經典) 299
9.24.1 具有當前重寫的微型維度 300
9.24.2 具有當前重寫的類型2 300
9.24.3 在事實表中具有持久鍵的
類型2 301
9.24.4 類型3屬性系列 302
9.24.5 在能力與易用性之間取得
平衡 303
9.25 漸變維度類型0、類型4、
類型5、類型6和類型7
(Kimball經典) 303
9.25.1 類型0:保留原始值 303
9.25.2 類型4:添加微型維度 303
9.25.3 類型5:添加微型維度和
類型1外支架 304
9.25.4 類型6:將類型1屬性
添加到類型2維度 304
9.25.5 類型7:雙重類型1和
類型2維度 305
9.26 維度行變更原因屬性 306

第10章 更多的維度模式和注意事項 309
10.1 星型、外支架和橋接 309
10.2 三種有意思的星型模式 311
10.2.1 經典的星型模式 312
10.2.2 大型顧客維度 312
10.2.3 金融產品維度 313
10.2.4 多企業日歷維度 314
10.2.5 允許的星型模式 314
10.3 為維度建模提供幫助 314
10.4 管理橋接表 317
10.4.1 使用代理鍵 318
10.4.2 使用雙時間戳 318
10.4.3 更新橋接表 319
10.5 關鍵字維度 320
10.5.1 設計關鍵字維度 321
10.5.2 AND/OR的兩難局面 322
10.5.3 搜索子字符串 322
10.5.4 高性能子字符串索引 323
10.6 可能的橋接(表)彎路 323
10.7 多值維度的可選項 325
10.8 將微型維度添加到橋接表 327
10.9 維護維度層次結構 328
10.9.1 從設計開始入手 328
10.9.2 加載標准化數據 330
10.9.3 維護真正的層次結構 331
10.9.4 應對臟數據源 331
10.9.5 讓它執行起來 332
10.10 為層次結構提供幫助
(Kimball經典) 332
10.11 用於更好的員工維度建模的
五個選項 335
10.11.1 選項1:使用代理鍵的
橋接表 335
10.11.2 選項2:具有單獨匯報
對象維度的橋接表 336
10.11.3 選項3:具有自然鍵的
橋接表 337
10.11.4 選項4:強制實現固定
深度層次結構的技術 338
10.11.5 選項5:路徑字符串
屬性 339
10.11.6 推薦 339
10.12 避免可替換的組織層次
結構 340
10.13 可替換的層次結構 341
10.14 維度修飾 342
10.15 對行為標記進行爭論 343
10.16 捕獲顧客滿意度的三種
方式 345
10.16.1 標准的固定列表 345
10.16.2 同步的維度屬性和
事實 346
10.16.3 不可預測的紊亂列表 347
10.17 用於實時顧客分析的極端
狀態追蹤 348
10.18 全局化思考,本地化行動 351
10.18.1 同步多個時區 351
10.18.2 支持多國日歷 352
10.18.3 以多種貨幣單位集中
收益 353
10.18.4 處理歐洲問題(來自
1998年的觀點) 354
10.19 沒有邊界的數據倉庫 354
10.20 讓數據倉庫在空間上可用 358
10.20.1 調研GIS供應商 359
10.20.2 進入訓練營 359
10.20.3 自動地址標准化 360
10.20.4 標准數據庫上的地理
位置查詢 361
10.20.5 恰好合適 361
10.21 跨國維度化數據倉庫注意
事項 362
10.22 行業標准數據模型的不足
之處 363
10.23 一個保險行業數據倉庫的
案例研究 364
10.24 遍歷數據庫 368
10.24.1 排查設計 368
10.24.2 添加維度 369
10.24.3 圖片和地圖 370
10.25 人力資源維度模型
(Kimball經典) 371
10.26 維度化管理待辦事項 373
10.27 不要過於急切 375
10.27.1 找出盈利能力的組成
部分 375
10.27.2 市場營銷和財務部門
需要提供幫助 376
10.27.3 成本分配:盈利能力的
核心挑戰 376
10.27.4 如果時間緊迫 377
10.28 預算鏈 377
10.28.1 預算鏈事實表的粒度 379
10.28.2 預算鏈維度和事實 379
10.28.3 跨預算鏈的應用程序 380
10.29 啟用合規性的數據倉庫 380
10.30 記錄顧客的點擊操作 382
10.30.1 點擊流維度模型的目標 382
10.30.2 點擊流數據源 383
10.30.3 點擊流數據的基礎粒度 384
10.30.4 識別點擊流維度和事實 384
10.30.5 分析點擊流事件 385
10.31 點擊流的特殊維度 386
10.31.1 訪客維度 386
10.31.2 頁面對象維度 387
10.31.3 會話類型 387
10.31.4 專注於頁面對象和
會話維度 388
10.32 用於文本文檔搜索的
事實表 389
10.32.1 相似性指標 389
10.32.2 用於相似性測量的
事實表 390
10.32.3 強大的應用程序 391
10.33 讓市場購物籃分析成為
可能 391

第11章 后台ETL和數據質量 395
11.1 圍繞ETL需求
(Kimball經典) 395
11.1.1 業務需求 396
11.1.2 合規性 396
11.1.3 經過數據剖析的數據質量 396
11.1.4 安全性 397
11.1.5 數據集成以及360°畫像 397
11.1.6 數據延遲 397
11.1.7 存檔和派生關系 398
11.1.8 BI用戶交付界面 398
11.1.9 可用技能 398
11.1.10 遺留許可 399
11.2 ETL的34個子系統
(Kimball經典) 399
11.2.1 提取:將數據放入
數據倉庫 399
11.2.2 數據清洗和一致化 400
11.2.3 交付:准備呈現 400
11.2.4 管理ETL環境 401
11.3 用於ETL架構的六個關鍵
決策 402
11.3.1 是否應該使用ETL工具 402
11.3.2 應該在何處以及如何進行
數據集成 403
11.3.3 應該選擇哪種變更數據
捕獲機制 403
11.3.4 何時應該暫存數據 404
11.3.5 應該在何處糾正數據 404
11.3.6 必須以多快的速度通過
DW/BI系統使用源數據 405
11.4 要避免的三種ETL妥協 405
11.4.1 妥協1:忽視漸變維度
需求 406
11.4.2 妥協2:未能接受元數據
策略 406
11.4.3 妥協3:未交付有意義的
范圍 407
11.4.4 公開且誠實地做出妥協 407
11.5 在提取時工作 407
11.5.1 對跨多個時區的事件建模 408
11.5.2 冗長的日歷維度 408
11.5.3 保留跨多種貨幣的定金 408
11.5.4 產品管道測量 408
11.5.5 損益的物理完整性 409
11.5.6 異質性產品 409
11.5.7 通用聚合 409
11.5.8 通用維度建模 409
11.6 數據暫存是關系型的嗎 410
11.6.1 維度處理 410
11.6.2 確定已經變更的內容 411
11.6.3 從不同的源合並 411
11.6.4 數據清洗 411
11.6.5 處理名稱和地址 412
11.6.6 驗證一對一和一對多關系 412
11.6.7 事實處理 412
11.6.8 聚合處理 412
11.6.9 基線:數據暫存是
關系型的嗎 413
11.7 暫存區和ETL工具 413
11.8 是否應該使用ETL工具 414
11.8.1 ETL工具的優勢 414
11.8.2 ETL工具的劣勢 415
11.8.3 構建一個堅實的基礎 415
11.9 ETL工具提供商的行動要求 416
11.10 文檔化ETL系統 417
11.11 三思而行 418
11.11.1 目標:高層次ETL
規划 418
11.11.2 輸入和數據流 418
11.11.3 轉換注釋 419
11.11.4 在開工之前完成規划 420
11.12 為傳入數據做好准備 421
11.12.1 典型的數據集成過程 421
11.12.2 架構 422
11.12.3 設置過程 422
11.12.4 異常處理 423
11.12.5 靠不住的簡單性 423
11.13 構建變更數據捕獲系統 423
11.14 破壞性的ETL變更 424
11.15 ETL的新方向 426
11.15.1 極端的集成 426
11.15.2 極端的多樣性 426
11.15.3 巨大的量級 426
11.15.4 實時交付 426
11.15.5 分析師的崛起和數據
見解的貨幣化 427
11.15.6 新的分析工具 427
11.15.7 列式數據存儲和內存
數據庫 427
11.15.8 瘋狂增長的數據虛擬化 427
11.15.9 小結 427
11.16 處理數據質量:不要只是
坐着,要行動起來 428
11.16.1 進行調查研究 428
11.16.2 共享發現 429
11.16.3 小結 429
11.17 數據倉庫測試建議 429
11.18 處理臟數據 431
11.18.1 合格數據至關重要的
應用程序 431
11.18.2 數據清洗的科學 433
11.18.3 數據清洗的市場機會 434
11.18.4 數據完整性驅動業務
再造 435
11.19 用於數據質量的架構
(Kimball經典) 436
11.19.1 確立一種質量文化,
再造過程 437
11.19.2 數據剖析角色 437
11.19.3 質量篩查 438
11.19.4 錯誤事件模式 438
11.19.5 響應質量事件 440
11.19.6 審計維度 440
11.19.7 六西格瑪數據質量 441
11.20 質量指示器:審計維度 442
11.20.1 從最小可能粒度入手 443
11.20.2 報告聚合數據質量 444
11.20.3 構建審計維度 445
11.21 添加審計維度以追蹤派生
關系和置信度 445
11.22 為事實表增加不確定性 447
11.23 是否已經構建審計維度 448
11.24 數據是否正確 449
11.24.1 評價沒有歷史的數據
質量 451
11.24.2 可預測變更的補充 451
11.25 對於國際化數據質量的
八項建議 452
11.25.1 語言和字符集 452
11.25.2 文化、姓名和稱呼 452
11.25.3 地理位置和地址 453
11.25.4 隱私和信息傳輸 453
11.25.5 國際化合規性 453
11.25.6 貨幣 453
11.25.7 時區、日歷和日期格式 453
11.25.8 數字 453
11.25.9 用於國際化數據質量的
架構 454
11.26 將正則表達式用於數據
清洗 454
11.26.1 求助於正則表達式 455
11.26.2 基本運算符 455
11.26.3 找出「Inc」 456
11.26.4 最終結果 456
11.26.5 可以在何處使用
正則表達式 457
11.27 對代理進行管道化處理 457
11.27.1 用於維度表的鍵 458
11.27.2 用於事實表的鍵 460
11.28 疏通事實表代理鍵管道 461
11.28.1 缺失源系統鍵 461
11.28.2 糟糕的源系統鍵 462
11.28.3 業務需求含義 463
11.29 正確復制維度 463
11.30 使用循環冗余校驗和識別
維度變更 464
11.31 維護指向操作源的回指
指針 465
11.32 創建歷史維度行 465
11.32.1 挖掘歷史 466
11.32.2 探討選項和影響 466
11.32.3 構建維度 466
11.32.4 選擇每日或精確到
分秒的粒度 466
11.33 面對鍵重置危機 468
11.34 沿時間回溯(Kimball經典) 469
11.34.1 延遲到達的事實記錄 470
11.34.2 延遲到達的維度記錄 470
11.35 提前到達的事實 471
11.36 漸變實體 472
11.37 將SQL MERGE語句用於
漸變維度 474
11.37.1 步驟1:重寫類型1
變更 474
11.37.2 步驟2:處理類型2
變更 474
11.38 創建和管理收縮維度 476
11.38.1 創建基礎維度 476
11.38.2 從基礎維度創建收縮
維度 476
11.38.3 替代方式:分別創建
基礎維度和收縮維度 477
11.38.4 將維度提供給用戶 477
11.39 創建和管理微型維度 477
11.39.1 創建初始微型維度 477
11.39.2 持續的微型維度維護 478
11.40 創建、使用和維護雜項
維度 479
11.40.1 構建初始雜項維度 479
11.40.2 將雜項維度納入事
實行處理 480
11.40.3 維護雜項維度 480
11.41 構建橋接 481
11.41.1 歷史加載 481
11.41.2 創建分組的初始化列表 481
11.41.3 創建橋接表 482
11.41.4 增量處理 483
11.42 盡量少做離線處理 483
11.43 網絡時代的工作 485
11.44 實時分區 488
11.44.1 實時分區的要求 488
11.44.2 事務粒度實時分區 488
11.44.3 定期快照實時分區 489
11.44.4 累計快照實時分區 489
11.45 實時分類 490