欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

大数据挖掘技术与应用 周中元 2019年版

收藏
  • 大小:113.7 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
大数据挖掘技术与应用
作者:周中元
出版时间: 2019年版
内容简介
  本书系统介绍大数据技术的原理、数据挖掘与应用,主要内容包括基本概念、数据收集、数据存储、数据处理、大数据可视化、信息检索、数据挖掘和效能评估。本书以简单易懂的语言、生动有趣的实例和图形展示知识点,将概念、原理与应用融会贯通,并对大数据工具软件进行了细致的梳理。
目录
第1章 大数据概述
1.1 从AlphaGo说起
1.2 大数据定义
1.3 大数据产生的原因
1.4 大数据发展历程
1.5 大数据的特征
1.6 数据的度量
1.7 大数据思维
1.8 科学研究范式的发展
1.9 大数据的影响及应用
1.10 大数据计算模式及产品
第2章 数据收集
2.1 外部数据收集
2.1.1 网络爬虫原理
2.1.2 搜索排序策略
2.1.3 Web网络图
2.1.4 构建爬虫系统
2.2 内部数据收集
2.2.1 Flume
2.2.2 Chukwa
第3章 数据存储
3.1 文件存储
3.1.1 Hadoop简介
3.1.2 文件存储
3.1.3 HDFS的基本术语
3.1.4 HDFS运行架构
3.1.5 HDFS安全设计
3.1.6 HDFS的弱点
3.2 数据库存储
3.2.1 NoSQL简介
3.2.2 列族数据库HBase
3.2.3 文档数据库MongoDB
3.2.4 图数据库
3.2.5 键-值对数据库
第4章 数据处理
4.1 离线批处理框架
4.2 MapReduce计算框架
4.3 Hadoop简介
4.3.1 Hadoop生态圈
4.3.2 Hadoop发展历程
4.3.3 Hadoop的特性
4.3.4 Hadoop的版本
4.4 HDFS高可用性架构
4.5 HDFS联邦
4.6 YARN
4.7 Hadoop工具集
4.8 消息机制
4.8.1 消息处理模型
4.8.2 JMS
4.9 内存计算框架Spark
4.9.1 Spark的配置方式
4.9.2 Spark的主要特点
4.9.3 Spark生态圈
4.9.4 Spark与Hadoop比较
4.9.5 Spark运行架构
4.9.6 Spark基本运行流程
4.9.7 RDD
4.10 流式计算框架
4.10.1 流式计算处理过程
4.10.2 常见的流式计算软件
4.10.3 Storm系统
4.10.4 Spark Streaming
4.10.5 流计算与批处理计算的区别
4.11 图计算
4.11.1 Pregel图计算框架的提出
4.11.2 超步
4.11.3 Pregel计算模型
4.11.4 Pregel的C++ API
4.11.5 Pregel体系结构
4.11.6 容错性
第5章 大数据可视化
5.1 数据可视化定义
5.2 数据可视化发展历程
5.3 数据可视化的作用
5.4 数据可视化设计步骤
5.5 数据可视化设计要素
5.6 颜色可视化设计
5.6.1 色彩空间
5.6.2 色彩三要素
5.7 数据可视化基本图形选用
5.8 数据可视化工具
第6章 信息检索
6.1 信息检索定义
6.2 相关性
6.2.1 布尔模型
6.2.2 排序布尔模型
6.2.3 向量空间模型
6.2.4 语言模型
6.3 及时性
6.4 搜索引擎
6.4.1 网页链接分析法
6.4.2 电子商务中的商品排序
6.4.3 开源搜索引擎
6.5 推荐系统
6.5.1 何谓推荐系统
6.5.2 推荐系统与电商
6.5.3 推荐系统数据基础
6.5.4 推荐方法
6.5.5 开源推荐系统
6.6 互联网广告
第7章 数据挖掘
7.1 基本概念
7.1.1 数据挖掘的定义
7.1.2 相关技术
7.2 数据来源
7.3 数据表示与预处理
7.4 机器学习算法
7.4.1 关联分析
7.4.2 分类
7.4.3 回归分析算法
7.4.4 聚类分析
7.5 数据挖掘工具软件
第8章 效能评估
8.1 效果评估
8.1.1 对信息检索的评估
8.1.2 对分类的评估
8.1.3 对聚类的评估
8.2 性能评估
附录 Hadoop编年史
参考文献
下载地址