会员   密码 您忘记密码了吗?
1,575,266 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > 大數據猩球:海量數據處理實踐指南
大數據猩球:海量數據處理實踐指南
上一张
下一张
prev next

大數據猩球:海量數據處理實踐指南

作者: (美)PHILIP KROMER,RUSSELL JURNEY
出版社: 電子工業出版社
出版日期: 2016-08-01
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT414.00
市场价格: RM74.43
本店售价: RM66.24
促销价: RM65.50
剩余时间: 请稍等, 正在载入中...
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

本書以實用的、可操作的視角解釋了大數據——采用黑猩猩和大象的隱喻,基於棒球統計數據集,使用Apache Hadoop和Pig等工具展示了如何處理大規模數據。此外,通過處理真實數據、解決現實問題,作者還以實例的形式總結了一些實踐分析模式,為有創造力的分析人員提供了最強大、最有價值的方法。本書特別適合那些需要大數據工具箱來解決實際問題的人們。


目錄

前言

第一部分 入門:理論和工具

第1章 Hadoop基礎
黑猩猩和大象創業
Map-Only作業:逐個處理記錄
PigLatinMap-Only作業
創建DockerHadoop集群
運行作業
小結

第2章 MapReduce
黑猩猩和大象拯救聖誕節
玩具島上的麻煩
黑猩猩把信件變成帶標簽的玩具表
小象將玩具表送到適當的工作台
示例:馴鹿游戲
UFO數據
根據報道延遲對UFO目擊分組
Mapper
Reducer
數據可視化
馴鹿小結
Hadoop與傳統數據庫
MapReduce俳句
Map階段簡述
Group-Sort階段簡述
Reduce階段簡述
小結

第3章 棒球數據集速覽
數據
縮略詞和術語
規則和目標
評價指標
小結

第4章 Pig入門
Pig幫助Hadoop處理數據表,而不是記錄
維基百科訪問數統計
基本數據操作
控制操作
管道操作
結構化操作
LOAD定位並描述你的數據
簡單類型
復雜類型1,元組:帶類型字段的固長序列
復雜類型2,袋:元組的無限集合
定義變換后的記錄模式
STORE將數據寫入磁盤
輔助命令
DESCRIBE
DUMP
SAMPLE
ILLUSTRATE
EXPLAIN
Pig函數
Piggybank
ApacheDataFu
小結

第二部分 戰術:分析模式

第5章 Map-Only操作
模式用法
清除數據
選擇滿足條件的記錄:FILTER等
選擇滿足多個條件的記錄
選擇或丟棄空值記錄
選擇匹配正則表達式的記錄(MATCHES)
根據固定的值列表匹配記錄
按字段名投影字段
使用FOREACH選擇、重命名和重排序字段
抽取記錄的隨機樣本
按key抽取一致性樣本
僅加載部分 part-Files實現粗略抽樣
使用LIMIT選擇固定數量的記錄
其他數據消除模式
變換記錄
使用FOREACH逐個變換記錄
嵌套FOREACH允許使用中間表達式
根據模版格式化字符串
使用復雜類型組裝字面值
操縱字段的類型
整型、浮點型和取整
從外部包調用用戶自定義函數
將一個表分裂成多個表的操作
將數據條件定向到多個數據流(SPLIT)
將幾個表聯合成一個表的操作
將多個Pig關系表合並成一個表(堆砌行集)
小結

第6章 分組操作
按key將記錄分組到袋
模式用法
統計key的出現次數
使用帶分隔符的字符串表示值的集合
使用帶分隔符的字符串表示復雜數據結構
使用JSON編碼的字符串表示復雜數據結構
分組和聚合
聚合組的統計數據
完全匯總字段
匯總整個表的聚合統計值
匯總字符串字段
使用直方圖計算數值型值的分布情況
模式用法
直方圖的數據分箱
確定箱子的大小
解釋直方圖和分位數
將數據分箱到規模呈指數變化的塊
為通用代碼段創建Pig宏
比賽分布情況
極端情況和干擾因子
不要相信尾部分布
計算相對分布直方圖
重新注入全局值
在組內計算直方圖
導出可讀結果
匯總技巧
統計組的條件子集——匯總技巧
同時匯總組的多個子集
測試組內某個值是否缺失
小結
參考文獻

第7章 表連接
匹配表記錄(內連接)
將一個表的記錄與另一個表的記錄直接匹配連接(直接內連接)
連接是怎麼工作的
連接就是COGROUP+FLATTEN
連接就是在表名上進行二次排序的MapReduce作業
處理連接和分組中的空值和不匹配
枚舉多對多關系
連接表和它自己(自連接
包含不匹配記錄的連接(外連接
模式用法
連接不含外鍵關系的表
連接整型表填補列表中的空白
僅選擇與另一個表不匹配的記錄(反連接)
僅選擇與另一個表匹配的記錄(半連接)
反連接的另一種方式:使用COGROUP
小結

第8章 排序操作
准備職業生涯時期
對所有記錄進行全排序
多字段排序
表達式排序(行不通)
大小寫不敏感的字符串排序
排序的空值處理
將值放到排序順序的頂部或底端
組內排序
模式用法
根據字段值的Top-K選擇行
組內Top-K
按照排序順序給記錄編號
找出最大值對應的記錄
對一組記錄進行混排
小結

第9章 重復記錄和唯一記錄
處理重復
消除表中的重復記錄
消除組內的重復記錄
基於鍵消除重復
基於鍵選擇唯一(或重復)記錄
集合操作
全表上的集合操作
DistinctUnion
DistinctUnion(其他方法)
SetIntersection
SetDifference
SymmetricDifference:(A-B)+(B-A)
SetEquality
組內集合操作
構造一個集合序列
某個組內的集合操作
小結

索引