大数据浪潮:大数据整体解决方案及关键技术探索
作 者: 陈敏 著
出版时间: 2015
内容简介
本书站在大数据学科发展前沿和大数据产业发展方向上,结合学术界和工业界的研究成果和实践经验,传播大数据领域的研究动态和先进技术。全书通过“基础、进阶、实战、应用”四个篇章,既深入浅出地介绍大数据的基本概念,又面面俱到地剖析了大数据整体解决方案所涉及的具体技术细节。本书既适合初学者作为基础学习资料,又适合科研人员作为理论研究教程,更适合从业人员作为技术参考书目。
目录
1大数据背景(8)
1.1大数据时代的到来(8)
1.2大数据定义及特征(4)
1.3大数据价值(6)
1.4大数据备受关注(7)
1.5大数据带来的挑战(8)
2大数据基础(10)
2.1云计算(10)
2.1.1云计算概述(10)
2.1.2云计算与大数据的联系(12)
2.2物联网(13)
2.2.1物联网概述(13)
2.2.2物联网与大数据(14)
2.3数据中心(14)
2.3.1数据中心概述(14)
2.3.2数据中心与大数据(15)
3大数据的生成和采集(19)
3.1大数据生成(19)
3.1.1企业内部数据(19)
3.1.2物联网数据(20)
3.1.3互联网数据(21)
3.1.4生物医疗数据(21)
3.1.5其他科学数据(22)
3.2大数据采集(22)
3.2.1数据收集(23)
3.2.2数据传输(25)
3.2.3数据预处理(26)
4大数据存储(28)
4.1海量存储系统(28)
4.2分布式存储系统(29)
4.3大数据存储机制(31)
4.3.1数据库技术(32)
4.3.2数据库编程模型(36)
5大数据分析(39)
5.1传统数据分析方法(39)
5.2大数据分析方法(40)
5.3大数据分析架构(42)
5.4大数据挖掘和分析软件(43)
大数据浪潮——大数据整体解决方案及关键技术探索目录6大数据整体解决方案(47)
6.1大数据解决方案方法论(47)
6.1.1大数据解决方案参考模型(48)
6.1.2大数据解决方案分类(49)
6.2大数据硬件平台(50)
6.2.1可扩展性设计(51)
6.2.2可定制性设计(52)
6.3大数据软件系统(55)
6.3.1大数据处理系统核心模块(55)
6.3.2发行版增强功能、企业应用优化和增值服务(56)
6.3.3基于内存计算的大数据处理系统(60)
6.4大数据典型处理流程(63)
6.5大数据一体化解决方案比较(67)
7分布式文件系统HDFS(72)
7.1Hadoop I/O操作(72)
7.1.1I/O操作中的数据检查(73)
7.1.2数据的压缩(76)
7.1.3数据的I/O中序列化操作(78)
7.2Hadoop文件系统(87)
7.3HDFS体系结构(89)
7.3.1HDFS的特点和局限(89)
7.3.2HDFS相关概念(90)
7.3.3HDFS架构(91)
7.4 HDFS文件结构(94)
7.4.1NameNode的文件结构(94)
7.4.2编辑日志(edit log)及文件系统映像(filesystem image)(95)
7.4.3Secondary NameNode的目录结构(96)
7.4.4DataNode的目录结构(97)
7.5HDFS读/写数据流(98)
7.5.1文件的读取(98)
7.5.2文件的写入(99)
7.5.3一致性模型(101)
7.6HDFS命令详解(102)
7.6.1通过distcp进行并行复制(102)
7.6.2HDFS平衡(103)
7.6.3其他命令(103)
8并行编程模型MapReduce(108)
8.1MapReduce体系结构(108)
8.1.1MapReduce基本模型(108)
8.1.2MapReduce作业执行流程(108)
8.2MapReduce关键流程详解(110)
8.2.1partiton过程(110)
8.2.2combine过程(111)
8.2.3shuffle过程(112)
8.3MapReduce高级应用(114)
8.3.1二次排序(114)
8.3.2全排序(119)
8.3.3分布式缓存(121)
8.3.4MapReduce 小文件处理与文件压缩(123)
8.3.5MapReduce负载均衡(125)
9NoSQL数据库HBase(128)
9.1HBase体系结构(128)
9.2RowKey的设计与数据访问(132)
9.3过滤器(135)
9.3.1比较过滤器(137)
9.3.2专用过滤器(137)
9.3.3附加过滤器(139)
9.3.4FilterList(139)
9.3.5自定义过滤器(140)
9.4HBase多维数据访问(142)
9.4.1通过Filter实现(142)
9.4.2通过设计RowKey实现(143)
9.5协处理器Coprocessor(143)
9.5.1Coprocessor类(144)
9.5.2协处理器的加载(144)
9.5.3观察者(146)
9.5.4终端(150)
9.6二级索引(154)
9.6.1全局索引(global index)(154)
9.6.2本地索引(local index)(155)
10交互式查询语言Hive(157)
10.1Hive体系结构(157)
10.1.1Hive客户端(159)
10.1.2Metastore(159)
10.2Hive数据类型(160)
10.2.1基本类型(161)
10.2.2复杂类型(161)
10.3Hive存储方式和压缩类型(162)
10.3.1托管表和外部表(162)
10.3.2存储方式(163)
10.4Hive关键技术(164)
10.4.1HiveQL简介(164)
10.4.2Hive表的创建(165)
10.4.3Hive表的数据加载(166)
10.4.4Hive表的查询(167)
10.4.5Hive表的更改(170)
10.4.6Hive表的删除(171)
10.4.7Hive表的分区(171)
10.4.8Hive表的分桶(173)
10.4.9用户定义函数(174)
10.5Hive优化技术(175)
10.5.1Join优化(175)
10.5.2数据倾斜优化(176)
10.5.3Map和Reduce个数控制(177)
11资源管理和调度框架——YARN(180)
11.1MRv1架构面临的问题(180)
11.2YARN架构(181)
11.2.1YARN整体架构(181)
11.2.2RM组件的作用(183)
11.2.3AM组件的作用(184)
11.2.4NM组件的作用(185)
11.2.5运行在YARN上的计算框架(186)
11.2.6在YARN上定制计算框架(187)
11.3YARN管理后台简介(188)
11.4YARN资源调度(192)
12内存计算引擎Spark(197)
12.1Spark简介(197)
12.2Spark整体架构(198)
12.3Spark核心概念(199)
12.3.1弹性分布式数据集(199)
12.3.2RDD模型的优点(200)
12.3.3Spark DAG(201)
12.4Spark编程模型(202)
12.4.1Spark初始化(203)
12.4.2RDDs(203)
12.4.3Shared Variables(205)
12.5Spark相关组件(207)
12.6Spark应用实例(208)
12.6.1InMemory Analytics(208)
12.6.2Traffic Modeling(209)
12.6.3Twitter Spam Classification (209)
13大数据应用(213)
13.1大数据应用演化(213)
13.2大数据分析的关键领域(214)
13.2.1结构化数据分析(214)
13.2.2文本分析(215)
13.2.3Web分析(216)
13.2.4多媒体分析(217)
13.2.5网络分析(218)
13.2.6移动分析(219)
14大数据案例分析(221)
14.1物联网大数据(221)
14.1.1物联网大数据的表示(222)
14.1.2物联网大数据的预处理(223)
14.1.3物联网大数据的快速处理(224)
14.1.4物联网大数据的并行分析(226)
14.1.5物联网大数据处理平台的搭建(227)
14.2其他大数据的典型应用(231)
14.2.1企业级应用(231)
14.2.2社交网络大数据(232)
14.2.3医疗健康(234)
14.2.4群智感知(235)
14.2.5智能电网(235)
15总结(237)
15.1大数据的研究热点及研究方向(237)
15.1.1基础理论研究(237)
15.1.2关键技术研究(238)
15.1.3应用实践研究(238)
15.1.4数据安全研究(239)
15.2展望(240)
参考文献(243)