欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

大数据技术基础 鄂海红 2019年版

收藏
  • 大小:124.77 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
大数据技术基础
作者:鄂海红
出版时间:2019年版
丛编项: 普通高等教育“十三五”规划教材
内容简介
  《大数据技术基础》围绕大数据技术基础,重点介绍了大数据存储系统(分布式文件系统和NoSQL数据库)、大数据处理框架(Hadoop的MapReduce、Spark及实时处理框架Storm和Flink)、大数据仓库技术(Hive、Druid等)、大数据多维分析(Kylin)、大数据可视化技术和大数据综合应用等,以及当今主流的大数据平台构建技术和开源组件实践知识,可以指导读者全面、系统地掌握大数据各层的实现方案,开展各领域的大数据实践。《大数据技术基础》可作为计算机学科相关专业,特别是数据科学与大数据技术专业的教材。
目录
第1章 大数据概述
本章思维导图
1.1 大数据简介
1.1.1 大数据的发展历程
1.1.2 大数据的定义与特征
1.1.3 大数据与传统数据的区别
1.2 大数据平台应具备的能力
1.3 大数据平台架构
1.4 Hadoop生态系统
1.5 大数据应用
1.5.1 互联网大数据应用
1.5.2 金融行业大数据应用
1.5.3 医疗行业大数据应用
1.5.4 智慧交通大数据应用
本章课后习题
本章参考文献
第2章 大数据存储——分布式文件系统及NoSQL数据库
本章思维导图
2.1 分布式文件系统
2.1.1 HDFS相关概念
2.1.2 HDFS体系结构
2.1.3 HDFS存储机制
2.1.4 HDFS读/写操作
2.1.5 HDFS数据导入
2.2 NoSQL数据库
2.2.1 KeyValue模型
2.2.2 KeyDocument 模型
2.2.3 KeyColumn模型
2.2.4 图模型
2.3 列族数据库
2.3.1 列族数据库简介
2.3.2 HBase的基本原理
2.3.3 HBase的数据模型
2.4 键值数据库
2.4.1 键值数据库简介
2.4.2 选择键值数据库的原因
2.4.3 Redis的数据结构简介
2.4.4 Redis的数据持久化
2.4.5 Redis的数据复制
2.5 文档数据库
2.5.1 文档数据库简介
2.5.2 MongoDB的数据类型
2.5.3 MongoDB的数据复制
2.6 图数据库
2.6.1 图数据库简介
2.6.2 图数据库的优势
2.6.3 Neo4j的基本元素与概念
2.6.4 Cypher简介
本章课后习题
本章参考文献
第3章 大数据处理——MapReduce处理框架
本章思维导图
3.1 MapReduce的发展背景
3.2 MapReduce框架
3.3 MapReduce的编程模型
3.3.1 MapReduce初析
3.3.2 MapReduce的运行机制
3.3.3 MapReduce的相关问题
3.4 MapReduce的集群调度
3.4.1 Hadoop1.x的传统集群调度框架
3.4.2 Hadoop2.x的集群调度框架YARN
3.4.3 Hadoop作业调度器
本章课后习题
本章参考文献
第4章 大数据处理——分布式内存处理框架Spark
本章思维导图
4.1 Spark简介
4.1.1 Spark介绍
4.1.2 提出Spark的原因
4.1.3 Spark中的关键术语
4.1.4 Spark的优点
4.2 Spark框架
4.2.1 Spark框架图
4.2.2 Spark运行图
4.2.3 Spark任务调度方法
4.3 RDD概念理解
4.3.1 RDD介绍
4.3.2 RDD的操作
4.3.3 RDD的存储
4.3.4 RDD分区
4.3.5 RDD优先位置
4.3.6 RDD依赖关系
4.4 RDD操作
4.4.1 RDD创建
4.4.2 转换操作
4.4.3 行动操作
4.5 Scala语言
4.5.1 Scala介绍
4.5.2 Scala基本语法
4.5.3 Scala编写Spark示例
4.6 Spark SQL简介
4.6.1 Spark SQL与Shark的对比
4.6.2 Spark SQL的优势
4.6.3 Spark SQL生态
4.7 MLlib简介
4.7.1 MLlib介绍
4.7.2 MLlib支持机器学习算法
本章课后习题
本章参考文献
第5章 大数据处理——实时处理框架
本章思维导图
5.1 实时处理架构
5.1.1 基本概念
5.1.2 批量和流式计算
5.1.3 系统生态简介
5.2 Storm框架
5.2.1 Storm的基本术语和概念
5.2.2 Storm特性及运行原理
5.2.3 消息的生命周期
5.2.4 消息的可靠性保障
5.3 Flume分布式日志收集
5.3.1 Flume的基本术语和概念
5.3.2 源
5.3.3 通道
5.3.4 接收器
5.4 Kafka分布式消息队列
5.4.1 Kafka的基本术语和概念
5.4.2 生产者
5.4.3 消费者
5.4.4 数据传递的可靠性保障
5.5 Spark Streaming框架
5.5.1 Spark Streaming架构
5.5.2 输入数据源
5.5.3 DStream的转换操作
5.5.4 输出存储
5.5.5 容错机制
5.6 Flink框架
5.6.1 Flink架构
5.6.2 Client
5.6.3 JobManager
5.6.4 TaskManager
本章课后习题
本章参考文献
第6章 大数据查询——分布式数据查询
本章思维导图
6.1 分布式数据查询简介
6.2 Hive分布式数据仓库
6.2.1 Hive概述
6.2.2 Hive内部介绍
6.2.3 Hive架构介绍
6.2.4 HiveQL:数据定义
6.2.5 HiveQL:数据导入
6.2.6 HiveQL:查询
6.3 Druid时序数据仓储
6.3.1 Druid概述
6.3.2 架构详解
6.3.3 数据摄入
6.3.4 数据查询
6.4 Drill分布式实时查询
6.4.1 使用Apache Drill的原因
6.4.2 Drill架构与原理
6.4.3 Drill核心模块
6.4.4 使用Drill实现查询
本章课后习题
本章参考文献
第7章 大数据分析——Kylin分布式多维数据分析
本章思维导图
7.1 使用Apache Kylin的原因
7.2 Kylin学习的前奏
7.2.1 数据仓库的概念与产生需求
7.2.2 数据仓库与数据分析型系统
7.2.3 多维数据分析
7.2.4 OLAP与数据立方体
7.3 Kylin工作原理
7.3.1 Cube与Cuboid
7.3.2 工作流程
7.4 Kylin架构
7.5 Kylin快速入门
7.5.1 在Hive中准备数据
7.5.2 设计数据模型
7.5.3 创建Cube
7.5.4 构建Cube
7.5.5 查询Cube
7.6 增量构建
7.6.1 设计增量Cube
7.6.2 触发增量构建
7.6.3 管理Cube碎片
7.7 查询和可视化
7.7.1 Web GUI
7.7.2 Rest API
7.7.3 ODBC
7.7.4 通过Tableau访问Kylin
7.8 Cube优化
本章课后习题
本章参考文献
第8章 数据可视化
本章思维导图
8.1 数据可视化定义及分类
8.1.1 数据可视化定义
8.1.2 数据可视化分类
8.2 数据可视化基础
8.2.1 数据可视化流程
8.2.2 可视化中的数据
8.2.3 可视化的基本图表
8.2.4 视图的交互
8.3 信息可视化分类
8.3.1 时空数据可视化
8.3.2 层次和网络数据可视化
8.3.3 文本和文档可视化
8.4 在商业智能中的数据可视化应用
8.4.1 商业智能可视化的基本元素
8.4.2 仪表盘的设计准则
8.5 数据可视化的实现
8.5.1 数据可视化工具
8.5.2 ECharts
8.5.3 Plotly
本章课后习题
本章参考文献
第9章 大数据应用系统案例——互联网应用大数据系统构建
本章思维导图
9.1 互联网业务背景介绍
9.2 案例的大数据平台技术体系架构
9.2.1 数据采集
9.2.2 数据存储
9.2.3 数据计算
9.2.4 数据应用
本章课后习题
本章参考文献
下载地址