主要對spark和spark的安裝、配置、主要架構和組件進行介紹,並介紹如何利用sparkStreaming進行實時數據的處理,討論利用spark streaming的多種API和操作進行近實時的分布式日志流的處理。本書要求讀者對scala有很好的認識和理解,以便能夠利用核心組件和應用進行高效編程。
第1章 Spark和Spark Strearning的安裝與配置
安裝Spark
硬件需求
軟件需求
安裝spark擴展——Spark Streaming
配置和運行Spark集群
你的第一個Spark程序
用Scala編碼Spark作業
用Java開發Spark作業
管理員/開發者工具
集群管理
提交Spark作業
故障定位
配置端口號
類路徑問題——類沒有發現
其他常見異常
總結
第2章 Spark和Spark Strearning的體系結構與組件
批處理和實時數據處理的比較
批處理
實時數據處理
Spark的體系結構
Spark對比Hadoop
Spark的層次化結構
spark streaming的體系結構
Spark Streaming是什麼
Spark Streaming的上層體系結構
你的第一個Spark Streaming程序
用Scala編碼Spark Streaming作業
用Java編碼Spark Streaming作業
客戶端程序
打包和部署一個Spark Streaming作業
總結
第3章 實時處理分布式日志文件
Spark的封裝結構和客戶端API
Spark內核
Spark庫及擴展
彈性分布式數據集及離散流
彈性分布式數據集
離散流
從分布的、多樣的數據源中加載數據
Flume框架
Flume的安裝和配置
配置Spark以接收Flume事件
封裝和部署Spark Streaming作業
分布式日志文件處理的總體架構
總結
第4章 在流數據中應用Trfinsformation
理解並應用Transformation功能
模擬日志流
功能操作
轉換操作
窗口操作
性能調優
分塊和並行化
序列化
Spark內存調優
總結
第5章 日志分析數據的持久化
Spark Streaming的輸出操作
集成Cassandra
安裝和配置Apache Cassandra
配置Spark
通過編寫Spark作業將流式網頁日志存入Cassandra
總結
第6章 與Spark高級庫集成
實時查詢流數據
了解Spark SQL
集成Spark SQL與流數據
圖的分析——Spark GraphX
GraphX API介紹
集成Spark Streaming
總結
第7章 產品部署
Spark部署模式
部署在Apache Mesos上
部署在Hadoop或者YARN上
高可用性和容錯性
單機模式下的高可用性
Mesos或者YARN下的高可用性
容錯性
Streaming作業的監聽
應用程序UI界面/作業UI界面
與其他監控工具的集成
總結