欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

大数据科学丛书 Spark核心源码分析与开发实战

收藏
  • 大小:39 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
大数据科学丛书 Spark核心源码分析与开发实战
作者:王家林,王雁军,王家虎编
出版时间:2016
内容简介
  本书是一本全面介绍Spark以及Spark生态系统相关技术的书籍。主要内容包括Spark系统概述、Spark安装和集群的部署、RDD的编程实践、Spark的运行模式、Spark的运行机制以及Spark的四大子框架(Spark SQL、Spark Streaming、Spark GraphX、MLlib)的详细讲解。本书通过理论和实践相结合的方式对Spark的核心框架和生态圈做了详细的解读,不仅对Spark的原理进行详细阐述,还结合Spark的源码和案例操作展示了Spark框架的所具有的优雅和丰富的表现力。本书适合大数据从业者、Spark技术爱好者阅读。相信通过学习本书,读者能够熟悉和掌握Spark这一当前流行的大数据计算框架,并将其投入到实践中去。
目录
第1章Spark系统概述11Spark是什么12Spark生态系统BDAS121Spark Core122Spark SQL123Spark Streaming124Spark GraphX125MLlib126Tachyon127BlinkDB思考题第2章Spark安装和集群部署21搭建Hadoop分布式集群211安装VMware虚拟机212安装Ubuntu的镜像文件213安装JDK214搭建另外两台Ubuntu系统并配置SSH免密码登录215安装Hadoop和搭建Hadoop分布式集群22Spark安装和集群部署221安装Scala222安装Spark和集群部署23测试Spark集群231通过Spark提供的示例LocalPi测试Spark集群232通过Spark Shell测试Spark集群思考题第3章Spark RDD与Spark API编程实践31RDD介绍311RDD是Spark的核心抽象312RDD的特征32RDD的操作分类321输入操作322转换操作323行动操作324控制操作33Spark Shell下的Spark API编程实践331Local模式下实践map、filter和collect方法332集群模式下实践textFile、sortByKey和 saveAstextFile方法333集群模式下实践union、join、reduce和lookup方法334搜狗日志数据分析实践34基于IntelliJ IDEA使用Spark API开发应用程序341搭建和设置IntelliJ IDEA开发环境342在IntelliJ IDEA下开发并部署Spark应用程序343使用SBT编译Spark应用程序344使用Maven构建Spark应用程序345Spark工具思考题第4章Spark的运行模式41Spark的运行模式概览411Spark的基本工作流程412Spark应用程序部署42Local模式421Local模式实例部署及运行演示422Local模式内部实现原理43Standalone模式431Standalone模式实例部署及运行演示432Standalone模式内部实现原理44Yarn-Cluster模式441Yarn-Cluster模式实例部署及运行演示442Yarn-Cluster模式内部实现原理45Yarn-Client模式451Yarn-Client模式实例部署及运行演示452Yarn-Client模式内部实现原理46Mesos模式461Mesos模式实例部署及运行演示462Mesos模式内部实现原理思考题第5章Spark的运行机制51Spark集群的架构52Spark的作业和任务调度521Spark Application提交522作业(Job)提交523DAGScheduler划分Stage并提交524TaskScheduler提交Task525Executor运行Task并返回结果526Driver的处理53容错机制531Lineage机制532Checkpoint机制54Storage存储模块541Storage模块整体架构542缓存实现原理543缓存策略55Spark的消息传递机制Akka551Akka架构解析552Akka驱动下的start-allsh源码解析56Shuffle机制561Shuffle的原理 562Shuffle的写操作563Shuffle的读操作57共享变量571广播变量572累加器58Spark性能调优581数据序列化582内存优化583其他优化方法思考题第6章Spark SQL61Spark SQL原理和实现611Spark SQL简介612Spark SQL运行架构613Hive在Spark上的使用614源码解析SQL语句和HiveQL语句的执行过程62Spark SQL的操作实例621文本文件操作以及DSL操作622Parquet文件以及JSON文件操作623Hive数据操作演示(订单交易数据操作)624Spark SQL处理交通数据实战思考题第7章Spark Streaming71Spark Streaming运行原理711Spark Streaming简介712编程模型DStream713容错和持久化714性能调优715监控应用72源码解析Spark Streaming的运行过程721StreamingContext初始化并启动722数据接收723数据处理73Spark Streaming操作实例演示731文本数据操作实例演示732网络数据操作实例——销售模拟器演示733有状态(Stateful)操作实例演示734Window操作实例演示735SparkStreaming处理多源数据实战思考题第8章Spark GraphX81图的定义和应用811图的定义812图的应用82Spark GraphX简介821弹性分布式属性图822Spark GraphX图的切分和存储策略823Spark GraphX图的操作83Spark GraphX架构831Pregel图计算框架832Spark GraphX的实现833Spark GraphX图算法的实现方法84Spark GraphX图操作实例841基于Spark GraphX的属性图的操作实例842Spark GraphX图算法操作实例思考题第9章MLlib91机器学习简介911机器学习的定义912机器学习的分类913机器学习的常用算法92MLlib的简介921什么是MLlib922MLlib的架构923MLlib的数据类型924MLlib的算法93MLlib常用算法操作实践931K-Means算法解析和实践932协同过滤算法分析和案例实践思考题
下载地址