高等职业教育云计算系列规划教材 大数据平台应用
作者:张靖,李俊翰 主编
出版时间: 2020年版
丛编项: 高等职业教育云计算系列规划教材
内容简介
《大数据平台应用》是结合职业教育的实际情况而开发的云计算技术与应用专业系列教材之一,对云计算技术与应用专业、大数据技术与应用专业的学生及大数据初学者而言是一本不错的入门教程。《大数据平台应用》强调理论知识以够用为度,注重动手能力,在动手中逐渐掌握大数据相关技术。《大数据平台应用》内容包括感知大数据、环视Hadoop、部署Hadoop大数据平台、设计爬虫获取数据源、清洗数据与存储结构化、分析大数据、可视化大数据、平台化快速部署Hadoop等知识。《大数据平台应用》涵盖内容较为广泛,但注重点到为止,方便读者快速入门。《大数据平台应用》不仅可以作为高职高专、应用型本科相关专业的教材,也可以作为云计算培训及自学教材,还可以作为电子信息类专业教师及学生的参考书。
目录
第1章 感知大数据\t1
任务1 认知大数据\t1
子任务1 定义大数据\t2
子任务2 洞悉大数据的特征\t2
任务2 探究大数据常用的技术\t3
任务3 窥视大数据的商业应用\t4
课后练习\t5
第2章 环视Hadoop\t6
任务1 溯源Hadoop\t6
子任务1 较量Hadoop与传统文件系统\t8
子任务2 发现Hadoop的核心和特点\t9
子任务3 初访MapReduce\t10
任务2 查究Hadoop分布式文件系统\t12
子任务1 探究HDFS工作机制\t12
子任务2 厘清HDFS的前提和设计目标\t15
子任务3 深挖HDFS的核心机制\t19
任务3 构建MapReduce编程模型\t22
子任务1 解构MapReduce编程模型\t22
子任务2 揭秘YARN与MapReduce\t24
任务4 漫游Hadoop系统及其生态圈\t25
课后练习\t32
第3章 部署Hadoop大数据平台\t34
任务1 掌控Hadoop平台的部署模式\t34
任务2 部署Hadoop集群\t36
任务3 编写首个MapReduce程序\t59
任务4 初次运行MapReduce程序\t60
课后练习\t64
本章附录\t65
第4章 设计爬虫获取数据源\t69
任务1 初探大数据\t69
任务2 剖析大数据\t74
任务3 爬取大数据\t76
任务4 活用Scrapy框架高效编制爬虫\t79
任务5 运用Scrapy\t81
课后练习\t89
第5章 清洗数据与存储结构化\t91
任务1 揭示数据清洗\t91
任务2 清洗数据\t92
子任务1 熟知数据的基本操作\t92
子任务2 处理数据缺失\t94
子任务3 规范化数据\t96
子任务4 处理数据表结构的错误\t97
子任务5 处理日期数据的问题\t102
任务3 使用分布式数据库系统和结构存储数据\t104
子任务1 安装并使用Hive数据仓库\t104
子任务2 安装并使用HBase分布式数据库\t110
课后练习\t114
第6章 分析大数据\t115
任务1 透视数据分析\t115
任务2 构建分析模型\t116
子任务1 厘清数据分析过程\t116
子任务2 数据机器学习模型\t117
任务3 运用大数据分析算法分析数据\t119
子任务1 运用K-Means聚类算法分析数据\t120
子任务2 运用线性回归算法分析数据\t123
子任务3 运用决策树算法分析数据\t127
课后练习\t130
第7章 可视化大数据\t131
任务1 洞察pyecharts库\t131
任务2 活用可视化\t132
子任务1 活用柱状图/条形图(Bar)\t132
子任务2 活用散点图(EffectScatter)\t139
子任务3 活用漏斗图(Funnel)\t142
子任务4 活用仪表盘(Gauge)\t143
子任务5 活用地理坐标图(Geo)\t144
子任务6 活用关系图(Graph)\t145
子任务7 活用热力图(HeatMap)\t148
子任务8 活用K线图(Kline/Candlestick)\t150
子任务9 活用折线图/面积图(Line)\t152
子任务10 活用水球图(Liquid)\t153
子任务11 活用地图(Map)\t154
子任务12 活用饼图(Pie)\t155
子任务13 活用平行坐标系(Parallel)\t156
子任务14 活用雷达图(Radar)\t159
子任务15 活用词云(WordCloud)图\t160
课后练习\t161
第8章 平台化快速部署Hadoop\t163
任务1 探寻大数据管理平台\t163
任务2 配置基础环境\t165
子任务1 配置Linux系统\t165
子任务2 禁用Transparent Huge Pages\t169
子任务3 安装并配置JDK\t170
任务3 安装并配置Ambari\t170
任务4 快速部署Hadoop大数据集群\t173
课后练习\t178
附录A 课后练习参考答案\t179