大数据技术及其应用
作者:吕林涛等编著 冯博琴主审
出版时间: 2019年版
丛编项: 普通高等教育"十三五"规划教材
内容简介
《大数据技术及其应用/普通高等教育“十三五”规划教材》分为上篇(基础篇)、中篇(编程篇)和下篇(应用篇)三篇,共13章。书中主要内容包括大数据技术概述、大数据处理平台Hadoop、分布式文件系统HDFS、分布式计算框架MapReduce、内存型计算框架Spark、分布式数据库HBase、数据仓库Hive、Pig语言、Python语言、分布式数据收集系统Chukwa、分布式协调服务ZooKeeper、大规模微博传播分析案例和图书推荐案例等。《大数据技术及其应用/普通高等教育“十三五”规划教材》将理论与科研实践相结合,注重大数据技术的系统性、实用性和先进性,配有大量的应用案例,不仅能够帮助读者提高大数据技术的应用与研究水平,而且能够提高读者的综合应用创新能力。《大数据技术及其应用/普通高等教育“十三五”规划教材》可作为高等院校计算机科学与技术、物联网工程、数据科学与大数据技术等专业,或新工科相关专业本科生、研究生的教材,也可供从事大数据技术应用与开发,以及大数据系统运营与维护的科研、工程技术人员参考使用。
目录
上篇 基础篇
第1章 大数据技术概述
1.1 大数据的发展历史
1.2 大数据的基本特征
1.3 大数据处理框架
1.4 大数据技术的主要应用领域
1.4.1 大数据技术在公共事业领域的应用
1.4.2 大数据技术在消费领域的应用
1.4.3 大数据技术在金融领域的应用
1.4.4 大数据技术在工业领域的应用
1.4.5 大数据技术在医疗领域的应用
1.4.6 大数据技术在农业领域的应用
习题
参考文献
第2章 大数据处理平台Hadoop
2.1 Hadoop简介
2.1.1 Hadoop概述
2.1.2 Hadoop特性
2.1.3 Hadoop应用现状
2.2 Hadoop架构与组成
2.2.1 Hadoop架构
2.2.2 Hadoop组成模块
习题
参考文献
瓣分布式文件系统HDFs
3.1 HDFS简介
3.1.1 HDFS设计理念
3.1.2 HDFS的缺点
3.1.3 基本组成结构与文件访问过程
3.2 HDFS体系架构
3 2 1NameNnde
3.2.2 DataNode
3.2.3 C1ient
3.3 HDFS数据读写过程
3.3.1 读取数据
3.3.2 写数据
3.4 保障HDFS可靠性的措施
3.4.1 冗余备份
3.4.2 副本存放
3.4.3 心跳检测
3.4.4 安全模式
3.4.5 数据完整性检测
3.4.6 空间回收
3.4.7 MetaData磁盘失效
3.4.8 快照
3.5 HDFS Shell
3.5.1 通用选项
3.5.2 用户命令
3.5.3 管理与更新
3.6 HDFS JavaAPI编程实践
3.6.1 HDFS常用JavaAPI介绍
3.6.2 HDFS Java API编程案例
习题
参考文献
第4章 分布式计算框架MapReduce
4.1 MapReduce框架结构
4.1.1 MapRednee的函数式编程概述
4.1.2 MapRedace组成
4.1.3 MapReduce框架核心优势
4.2 WlordCount实例分析
4.2.1 WorclCount任务
4.2.2 WordCount设计思路
4.2.3 WordCount执行过程
4.3 MapReduce执行流程
4.3.1 MapReduce执行流程概述
4.3.2 MapRedace各个执行阶段
4.4 MapReduce运行原理
4.4.1 作业提交
4.4.2 作业初始化
4.4.3 任务分配
……
中篇 编程篇
下篇 应用篇