Spark數據分析：基於Python語言（英文版）

有店 App

当前分类

商品分类

浏览历史

当前位置: 首页 > 简体书 > Spark數據分析：基於Python語言（英文版）

详细介绍商品属性商品标记

內容簡介

本書重點關注Spark專案的基本知識，從Spark核心開始，然後拓展到各種Spark擴展、Spark相關項目、Spark子項目，以及Spark所處的豐富的生態系統裡各種別的開源技術，比如Hadoop、Kafka、Cassandra等。

作者介紹

第一部分Spark基礎
第1章大資料、Hadoop、Spark介紹3
1.1大數據、分散式運算、Hadoop簡介3
1.1.1大數據與Hadoop簡史4
1.1.2Hadoop詳解5
1.2Apache Spark簡介11
1.2.1Apache Spark背景11
1.2.2Spark的用途12
1.2.3Spark程式設計介面12
1.2.4Spark程式的提交類型12
1.2.5Spark應用程式的輸入輸出類型14
1.2.6Spark中的RDD14
1.2.7Spark與Hadoop14
1.3Python函數式程式設計15
1.3.1Python函數式程式設計用到的資料結構15
1.3.2Python物件序列化18
1.3.3Python函數式程式設計基礎21
1.4本章小結23
第2章部署Spark25
2.1Spark部署模式25
2.1.1本地模式26
2.1.2Spark獨立集群26
2.1.3基於YARN運行Spark27
2.1.4基於Mesos運行Spark28
2.2準備安裝Spark28
2.3獲取Spark29
2.4在Linux或Mac OS X上安裝Spark30
2.5在Windows上安裝Spark32
2.6探索Spark安裝目錄34
2.7部署多節點的Spark獨立集群35
2.8在雲上部署Spark37
2.8.1AWS37
2.8.2GCP39
2.8.3Databricks40
2.9本章小結41
第3章理解Spark集群架構43
3.1Spark應用中的術語43
3.1.1Spark驅動器44
3.1.2Spark工作節點與執行器47
3.1.3Spark主進程與集群管理器49
3.2使用獨立集群的Spark應用51
3.3在YARN上運行Spark應用的部署模式51
3.3.1用戶端模式52
3.3.2集群模式53
3.3.3回顧本地模式54
3.4本章小結55
第4章Spark程式設計基礎57
4.1RDD簡介57
4.2載入數據到RDD59
4.2.1從文件創建RDD59
4.2.2從文字檔創建RDD的方法61
4.2.3從目的檔創建RDD64
4.2.4從資料來源創建RDD64
4.2.5從JSON文件創建RDD67
4.2.6通過程式設計創建RDD69
4.3RDD操作70
4.3.1RDD核心概念70
4.3.2基本的RDD轉化操作75
4.3.3基本的RDD行動操作79
4.3.4鍵值對RDD的轉化操作83
4.3.5MapReduce與單詞計數練習90
4.3.6連接操作93
4.3.7在Spark中連接資料集98
4.3.8集合操作101
4.3.9數值型RDD的操作103
4.4本章小結106

第二部分基礎拓展
第5章Spark核心API高級程式設計109
5.1Spark中的共用變數109
5.1.1廣播變數110
5.1.2累加器114
5.1.3練習：使用廣播變數和累加器117
5.2Spark中的資料分區118
5.2.1分區概述118
5.2.2掌控分區119
5.2.3重分區函數121
5.2.4針對分區的API方法123
5.3RDD的存儲選項125
5.3.1回顧RDD譜系125
5.3.2RDD存儲選項126
5.3.3RDD緩存129
5.3.4持久化RDD129
5.3.5選擇何時持久化或緩存RDD132
5.3.6保存RDD檢查點132
5.3.7練習：保存RDD檢查點134
5.4使用外部程式處理RDD136
5.5使用Spark進行資料採樣137
5.6理解Spark應用與集群配置139
5.6.1Spark環境變數139
5.6.2Spark配置屬性143
5.7Spark優化146
5.7.1早過濾，勤過濾147
5.7.2優化滿足結合律的操作147
5.7.3理解函數和閉包的影響149
5.7.4收集資料的注意事項150
5.7.5使用配置參數調節和優化應用150
5.7.6避免低效的分區151
5.7.7 應用性能問題診斷153
5.8本章小結157
第6章使用Spark進行SQL與NoSQL程式設計159
6.1Spark SQL簡介159
6.1.1Hive簡介160
6.1.2Spark SQL架構164
6.1.3DataFrame入門166
6.1.4使用DataFrame177
6.1.5DataFrame緩存、持久化與重新分區185
6.1.6保存DataFrame輸出186
6.1.7訪問Spark SQL189
6.1.8練習：使用Spark SQL192
6.2在Spark中使用NoSQL系統193
6.2.1NoSQL簡介194
6.2.2在Spark中使用HBase195
6.2.3練習：在Spark中使用HBase198
6.2.4在Spark中使用Cassandra200
6.2.5在Spark中使用DynamoDB202
6.2.6其他NoSQL平臺204
6.3本章小結204
第7章使用Spark處理流資料與消息207
7.1Spark Streaming簡介207
7.1.1Spark Streaming架構208
7.1.2DStream簡介209
7.1.3練習：Spark Streaming入門216
7.1.4狀態操作217
7.1.5滑動視窗操作219
7.2結構化流處理221
7.2.1結構化流處理資料來源222
7.2.2結構化流處理的資料輸出池223
7.2.3輸出模式224
7.2.4結構化流處理操作225
7.3在Spark中使用消息系統226
7.3.1Apache Kafka227
7.3.2練習：在Spark中使用Kafka232
7.3.3亞馬遜Kinesis235
7.4本章小結238
第8章Spark資料科學與機器學習簡介241
8.1Spark與R語言241
8.1.1R語言簡介242
8.1.2通過R語言使用Spark248
8.1.3練習：在RStudio中使用SparkR255
8.2Spark機器學習257
8.2.1機器學習基礎257
8.2.2使用Spark MLlib進行機器學習260
8.2.3練習：使用Spark MLlib實現推薦器265
8.2.4使用Spark ML進行機器學習269
8.3利用筆記本使用Spark273
8.3.1利用Jupyter（IPython）筆記本使用Spark273
8.3.2利用Apache Zeppelin筆記本使用Spark276
8.4本章小結277

Contents
I: Spark Foundations
1 Introducing Big Data, Hadoop, and Spark 3
Introduction to

Spark數據分析：基於Python語言（英文版）


作者：	（澳）傑夫瑞·艾文
出版社：	機械工業出版社
出版日期：	2019-03-01
商品库存：	点击查询库存
	以上库存为海外库存属流动性。可选择“空运”或“海运”配送，空运费每件商品是RM14。配送时间：空运约8~12个工作天，海运约30个工作天。（以上预计配送时间不包括出版社库存不足需调货及尚未出版的新品）
定价：	NT474.00
市场价格：	RM85.21
本店售价：	RM75.84

购买数量：

作者	（澳）傑夫瑞·艾文
出版社	機械工業出版社
ISBN	9787111620037
出版日期	2019-03-01
开本
页数	277
装帧	平裝
规格	26 / 單色印刷 / 普級
版次	1-1
版本（简/繁）