会员   密码 您忘记密码了吗?
1,582,941 本书已上架      购物流程 | 常见问题 | 联系我们 | 关于我们 | 用户协议

有店 App


当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > 大數據離線分析
大數據離線分析
上一张
下一张
prev next

大數據離線分析

作者: 傅德謙(主編)
出版社: 清華大學出版社
出版日期: 2017-08-01
商品库存: 点击查询库存
以上库存为海外库存属流动性。
可选择“空运”或“海运”配送,空运费每件商品是RM14。
配送时间:空运约8~12个工作天,海运约30个工作天。
(以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品)
定价:   NT210.00
市场价格: RM37.75
本店售价: RM33.60
购买数量:
collect Add to cart Add booking
详细介绍 商品属性 商品标记
內容簡介

本書基於開源Hadoop大數據生態圈的主流離線分析工具Hive和Pig,通過技術講解和案例實戰相結合的方式,介紹了海量數據離線分析的技術方法。

本書主要包括Hive數據庫表、基於Hive QL的常規操作、視圖、索引和Pig等數據處理分析和基礎工具知識,Hive函數、Pig Latin編程、ETL工具Sqoop和工作流引擎Oozie等相關高級技術,以及實際項目案例。

本書既可供學習大數據離線分析技術的本科和高職高專學生作為教材,也可供從事數據分析相關工作的技術人員作為參考資料。


目錄

緒論001
第1章走進Hive003
1.1Hive簡介003
1.1.1Hive發展史003
1.1.2體系結構004
1.2Hive的安裝部署005
1.2.1安裝配置Hive005
1.2.2啟動Hive008
1.3Hive命令009
1.3.1Hive命令行選項009
1.3.2CLI命令行界面010
1.3.3Hive中CLI命令的快速編輯011
1.3.4Hive中的腳本011
1.3.5dfs命令的執行013
1.4數據類型和文件格式014
1.4.1基本數據類型014
1.4.2集合數據類型015
1.4.3文本文件數據編碼016
本章小結018
習題018
第2章HiveQL數據定義020
2.1數據庫的創建與查詢020
2.2數據庫的修改與刪除021
2.3創建表022
2.3.1管理表023
2.3.2外部表023
2.3.3查看表結構024
2.4修改表025
2.5刪除表026大數據
離線分析
目錄

2.6分區表027
2.6.1外部分區表028
2.6.2自定義表的存儲格式030
2.6.3增加、修改和刪除分區表031
2.7桶表031
本章小結032
習題033
第3章HiveQL數據操作034
3.1數據加載與導出034
3.1.1數據加載034
3.1.2數據導出036
3.2數據查詢037
3.2.1SELECT ... FROM語句037
3.2.2WHERE語句040
3.2.3GROUP BY語句與HAVING語句042
3.2.4JOIN語句043
3.2.5ORDER BY語句和SORT BY語句046
3.2.6CLUSTER BY語句047
3.2.7UNION ALL語句048
3.3抽樣查詢048
3.3.1數據塊抽樣049
3.3.2分桶表的輸入裁剪049
本章小結051
習題051
第4章HiveQL視圖和索引052
4.1視圖052
4.1.1創建視圖052
4.1.2顯示視圖053
4.1.3刪除視圖054
4.2索引054
4.2.1創建索引055
4.2.2重建索引055
4.2.3顯示索引056
4.2.4刪除索引056
本章小結057
習題057
第5章Hive的函數058
5.1函數簡介058
5.1.1發現和描述函數058
5.1.2調用函數059
5.1.3標准函數059
5.1.4聚合函數061
5.1.5表生成函數067
5.2用戶自定義函數UDF068
5.3用戶自定義聚合函數UDAF072
5.4用戶自定義表生成函數UDTF074
5.5UDF的標注075
5.5.1定數性標注(deterministic)076
5.5.2狀態性標注(stateful)076
5.5.3...性標注(distinctLike)076
本章小結076
習題077
第6章認識Pig078
6.1初識Pig078
6.1.1Pig是什麼078
6.1.2Pig的應用場景078
6.1.3Pig的設計思想079
6.1.4Pig的發展簡史080
6.2安裝、運行Pig080
6.2.1安裝Pig080
6.2.2運行Pig081
本章小結082
習題082
第7章Pig基礎084
7.1命令行工具Grunt084
7.1.1輸入Pig Latin腳本084
7.1.2使用HDFS命令085
7.1.3控制Pig087
7.2Pig數據類型088
7.2.1基本類型088
7.2.2復雜類型089
7.2.3NULL值089
7.2.4類型轉換090
本章小結092
習題092
第8章Pig Latin編程093
8.1Pig Latin介紹093
8.1.1基礎知識093
8.1.2輸入和輸出094
8.2關系操作095
8.2.1foreach語句096
8.2.2filter語句096
8.2.3group語句097
8.2.4order語句097
8.2.5distinct語句098
8.2.6join語句098
8.2.7limit語句098
8.2.8sample語句099
8.2.9parallel語句099
8.3用戶自定義函數UDF101
8.3.1注冊UDF102
8.3.2define命令和UDF103
8.3.3調用Java函數104
8.4開發工具104
8.4.1describe104
8.4.2explain105
8.4.3illustrate107
8.4.4Pig統計信息109
8.4.5M/R作業狀態信息111
8.4.6調試技巧112
本章小結113
習題113
第9章數據ETL工具Sqoop115
9.1安裝Sqoop115
9.2數據導入117
9.2.1導入實例118
9.2.2導入數據的使用119
9.2.3數據導入代碼生成120
9.3數據導出121
9.3.1導出實例121
9.3.2導出和SequenceFile123
本章小結123
習題124
第10章Hadoop工作流引擎Oozie125
10.1Oozie是什麼125
10.2Oozie的安裝125
10.3Oozie的編寫與運行131
10.3.1Workflow組件131
10.3.2Coordinator組件133
10.3.3Bundle組件134
10.3.4作業的部署與執行134
10.3.5向作業傳遞參數136
10.4Oozie控制台136
10.4.1控制台界面136
10.4.2獲取作業信息137
10.5Oozie的高級特性139
10.5.1自定義Oozie Workflow139
10.5.2使用Oozie JavaAPI141
本章小結143
習題143
第11章離線計算實例145
11.1微博歷史數據分析145
11.1.1數據結構145
11.1.2需求分析146
11.1.3需求實現146
11.2電商銷售數據分析160
11.2.1數據結構160
11.2.2需求分析161
11.2.3需求實現161
本章小結169
參考文獻