欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

大数据智能分析 (中国)张华平,商建云,刘兆友 2019年版

收藏
  • 大小:67.99 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
大数据智能分析
作者:(中国)张华平,商建云,刘兆友
出版时间:2019年版
内容简介
大数据智能是大数据、人工智能与自然语言处理等学科交叉融合的关键技术。本书主要讲述大数据智能的框架平台、理论算法、关键技术和应用实践: 在大数据与人工智能方面主要讲述了大数据智能概述、大数据技术平台与架构、传统机器学习与深度学习算法;在自然语言处理方面详细讲解了大数据精准搜索、汉语分词、新词发现、文本分类聚类、情感分析等当前热门的自然语言处理关键技术;在应用实践方面,本书进一步提供了自主研发的NLPIR大数据智能分析工具平台,具体介绍警情大数据、网络赌博、微博挖掘、看图说话等多个实际的大数据应用项目,也引入《红楼梦》前后作者分析、2手房房价、歌词生成等有意思的课程实践案例。

本书立足于作者近20年的前沿研究进展和工程实践,结合北京理工大学“大数据分析与应用”研究生课程讲授经验,体系完整,内容深入浅出,理论与实践并重,吸收了当前的技术前沿成果,同时突出原创的研究成果。本书可作为大数据、人工智能与自然语言处理方向的科研人员、高校研究生与本科生的教材,也可作为大数据智能方向的工程技术人员和爱好者的参考书。

目录
目录

第1章大数据智能概述/1

1.1数据的智能演化过程/1

1.2大数据/2

1.2.1大数据的概念/2

1.2.2大数据的特征/2

1.2.3大数据带来的决策方式的革命/3

1.2.4大数据面临的挑战及其对应的技术概览/5

1.2.5科学的大数据观/9

1.2.6大数据架构下的人才需求及产业结构/10

1.3人工智能/12

1.4自然语言处理/14第2章大数据技术平台与架构/16

2.1大数据技术概览/16

2.1.1大数据技术架构/16

2.1.2云计算/17

2.2Hadoop、Spark生态系统/20

2.2.1Hadoop生态系统/20

2.2.2Spark生态系统/26

2.2.3Spark和Hadoop的性能对比/31

2.3大数据挖掘与可视化工具/34第3章传统机器学习与数据挖掘/40

3.1机器学习介绍/40

3.2关联规则挖掘/41

3.2.1Apriori算法/43

3.2.2FPgrowth算法/43〖2〗〖4〗大数据智能分析目录〖3〗3.3分类/45

3.3.1SVM/45

3.3.2决策树/52

3.3.3朴素贝叶斯/56

3.3.4K近邻/59

3.4聚类/60

3.4.1基于划分的聚类方法/60

3.4.2基于层次的聚类方法/65

3.4.3基于密度的聚类方法/71

3.4.4聚类案例: 用户细分模型/74

3.5数据挖掘相关工具/74

3.5.1数据获取工具/75

3.5.2分词工具/77

3.5.3分类聚类工具/79

3.5.4Python调用方法/79第4章经典深度学习算法与平台/81

4.1神经网络基础/82

4.1.1神经元/82

4.1.2从神经元到神经网络/82

4.2循环神经网络/84

4.2.1RNN基本概念/84

4.2.2RNN的长期依赖问题与LSTM/85

4.2.3深度RNN和双向RNN/88

4.3卷积神经网络/89

4.4序列到序列模型/90

4.5注意力模型/91

4.6生成对抗网络/93

4.7TensorFlow计算图框架/95

4.7.1数据流图/95

4.7.2TensorFlow的特征/95

4.7.3官方入门教程/96

4.8PyTorch深度学习框架/103

4.8.1PyTorch是什么/103

4.8.2自动求导: 自动微分/104

4.8.3神经网络/105第5章信息检索与大数据搜索/110

5.1概述/110

5.2JZSearch大数据搜索引擎系统架构/110

5.3大数据精准搜索的基本技术/112

5.3.1索引字段类型/112

5.3.2索引词项的设计/113

5.3.3索引压缩技术/113

5.3.4内存交换/115

5.3.5增量索引/116

5.3.6数据库检索/117

5.4大数据精准搜索语法/118

5.4.1JZSearch排序算法/118

5.4.2JZSearch结果格式/119

5.4.3JZSearch检索语法说明/119

5.5JZSearch大数据精准搜索应用案例/123

5.5.1中国邮政集团邮址垂直搜索/124

5.5.2标准文档搜索引擎/124

5.5.3内网文档的知识搜索门户/125

5.5.4商品比价搜索/125

5.5.5维吾尔文搜索/125第6章汉语分词/127

6.1概述/127

6.2汉语分词的困难性/129

6.3基于机械匹配的汉语分词算法/132

6.3.1词典匹配法/132

6.3.2N最短路径法/136

6.4基于统计语言模型的汉语分词算法/137

6.4.1N元语言模型/138

6.4.2互信息模型/138

6.4.3最大熵模型/140

6.5NLPIRICTCLAS: 基于层叠隐马尔可夫模型的汉语分词算法/141

6.5.1层次隐马尔可夫模型/141

6.5.2基于类的隐马尔可夫分词算法/143

6.5.3N最短路径的切分排歧策略/145

6.6基于双向循环神经网络与条件随机场的词法分析/146

6.6.1概述/146

6.6.2基于双向循环神经网络的序列标注/146

6.6.3融合条件随机场的深度神经网络模型/148

6.7实验与分析/149

6.7.1评估方法/149

6.7.2实验分析1/149

6.7.3实验分析2/153第7章命名实体识别/157

7.1命名实体识别定义/157

7.2命名实体识别的研究主体/158

7.3命名实体识别的特点及难点/158

7.4命名实体识别的研究技术路径/159

7.5基于角色标注的命名实体识别/159

7.6实验与分析/162第8章新词发现/163

8.1基于规则的研究方法/164

8.1.1规则抽取方法/165

8.1.2规则过滤方法/165

8.2基于统计模型的研究方法/166

8.2.1凝固度/166

8.2.2信息熵/166

8.2.3新词IDF/167

8.3面向社会媒体的开放领域新词发现/167

8.3.1引言/167

8.3.2新词发现/168

8.3.3实验/171第9章文本分类与聚类/175

9.1文本预处理/175

9.2文本表示模型/176

9.2.1传统布尔检索与扩展布尔检索模型/177

9.2.2向量空间模型/177

9.2.3概率检索模型/180

9.2.4语言模型/181

9.3文本特征选择方法/182

9.3.1信息增量/183

9.3.2卡方统计/183

9.3.3交叉熵/183

9.4文本分类概述/184

9.5文本聚类概述/187

9.5.1聚类算法体系/187

9.5.2半监督聚类/188第10章话题发现算法/191

10.1多语语义串自动发现/195

10.2多语语义关键特征挖掘/197

10.2.1关键特征抽取/197

10.2.2单个文档Top N关键特征挖掘/198

10.3Top N热点话题发现和关联归并/198

10.3.1Top N热点话题发现/198

10.3.2话题归并/200

10.4多语文本话题发现与关联归类实验验证/201第11章情感分析/203

11.1概述/203

11.2情感分类/205

11.3应用/208

11.3.1用户评论分析与决策/208

11.3.2舆情监控/208

11.3.3信息预测/209

11.4情感词发现与极性权重自动计算算法/209

11.4.1引言/209

11.4.2情感词典构建模型/211

11.4.3实验/213

11.5基于树模型的无监督情感分析系统/216

11.5.1实现方法/216

11.5.2系统架构及流程/217

11.5.3实验分析及结论/219

11.6基于深度神经网络的短文本情感倾向性分析/221

11.6.1语料库建设/221

11.6.2词袋模型与文本建模/223

11.6.3基于Softmax和深度神经网络的短文本情感分析算法/225

11.6.4实验设计及实验结果/229第12章自动摘要/234

12.1概述/234

12.2基于关键词提取的自动摘要/238

12.3面向主题的自动摘要/244

12.4基于主题模型与信息熵的中文文档自动摘要技术研究/247

12.4.1主题模型/248

12.4.2信息熵/250

12.4.3句子信息熵的计算方法/250

12.4.4算法介绍/250

12.4.5实验结果/251

12.5自动摘要应用场景分析及大数据搜索与挖掘软件应用示例/252第13章大数据智能应用案例/254

13.1公安警情大数据挖掘/254

13.2网络赌博信息文本挖掘/257

13.2.1Web网页信息选择与提取/257

13.2.2中文分词及词性标注处理/258

13.2.3特征提取/259

13.2.4基于网络赌博信息的数据挖掘/260

13.2.5网络赌博信息可视化展示/262

13.3领导人支持信息挖掘/265

13.4微博博主的特征与行为大数据挖掘/268

13.4.1介绍/268

13.4.2宏观特征大数据挖掘/270

13.4.3实验与分析/275

13.4.4微博博主的价值观自动评估方法/275

13.5看图说话: 基于MaskRCNN的图片中文描述生成器/277

13.5.1自下而上的注意力机制在图像描述中的应用/278

13.5.2BottomUpAttention和TopDownAttention图像描述模型/280

13.5.3DenseAttention图像描述模型/281

13.5.4基于语义控制的长短时记忆模型/281

13.5.5模型训练相关说明及结果分析/283

13.5.6模型测试相关说明及结果分析/284

13.5.7测试结果分析/286第14章大数据智能课程经典作业汇编/288

14.1《红楼梦》前后作者同一性分析/288

14.2党的十九大报告语义智能分析/293

14.3文章风格对比: 方文山与汪峰/294

14.4智慧旅游大数据应用/295

14.5某大厦电力数据挖掘/298

14.6杭州市二手房房价分析/301

14.6.1概述/301

14.6.2房价分析系统案例介绍/301

14.6.3本例设计与实现/304

14.7数据挖掘在股票分析预测中的应用/306

14.7.1概述/306

14.7.2股票分析预测方法/307

14.7.3神经网络在股票分析预测应用中的研究现状/307

14.7.4实验结果/309

14.8基于TensorFlow的歌词自动生成/310

14.8.1算法说明/310

14.8.2实验结果/311

14.9基于LSTM的购物评论分类/312

14.9.1获取语料库比分词/312

14.9.2词向量的转换/313

14.9.3建立向量和单词列表/313

14.9.4将句子转换成序号矩阵/314

14.9.5模型训练/314
下载地址