大数据智能分析
作者:(中国)张华平,商建云,刘兆友
出版时间:2019年版
内容简介
大数据智能是大数据、人工智能与自然语言处理等学科交叉融合的关键技术。本书主要讲述大数据智能的框架平台、理论算法、关键技术和应用实践: 在大数据与人工智能方面主要讲述了大数据智能概述、大数据技术平台与架构、传统机器学习与深度学习算法;在自然语言处理方面详细讲解了大数据精准搜索、汉语分词、新词发现、文本分类聚类、情感分析等当前热门的自然语言处理关键技术;在应用实践方面,本书进一步提供了自主研发的NLPIR大数据智能分析工具平台,具体介绍警情大数据、网络赌博、微博挖掘、看图说话等多个实际的大数据应用项目,也引入《红楼梦》前后作者分析、2手房房价、歌词生成等有意思的课程实践案例。
本书立足于作者近20年的前沿研究进展和工程实践,结合北京理工大学“大数据分析与应用”研究生课程讲授经验,体系完整,内容深入浅出,理论与实践并重,吸收了当前的技术前沿成果,同时突出原创的研究成果。本书可作为大数据、人工智能与自然语言处理方向的科研人员、高校研究生与本科生的教材,也可作为大数据智能方向的工程技术人员和爱好者的参考书。
目录
目录
第1章大数据智能概述/1
1.1数据的智能演化过程/1
1.2大数据/2
1.2.1大数据的概念/2
1.2.2大数据的特征/2
1.2.3大数据带来的决策方式的革命/3
1.2.4大数据面临的挑战及其对应的技术概览/5
1.2.5科学的大数据观/9
1.2.6大数据架构下的人才需求及产业结构/10
1.3人工智能/12
1.4自然语言处理/14第2章大数据技术平台与架构/16
2.1大数据技术概览/16
2.1.1大数据技术架构/16
2.1.2云计算/17
2.2Hadoop、Spark生态系统/20
2.2.1Hadoop生态系统/20
2.2.2Spark生态系统/26
2.2.3Spark和Hadoop的性能对比/31
2.3大数据挖掘与可视化工具/34第3章传统机器学习与数据挖掘/40
3.1机器学习介绍/40
3.2关联规则挖掘/41
3.2.1Apriori算法/43
3.2.2FPgrowth算法/43〖2〗〖4〗大数据智能分析目录〖3〗3.3分类/45
3.3.1SVM/45
3.3.2决策树/52
3.3.3朴素贝叶斯/56
3.3.4K近邻/59
3.4聚类/60
3.4.1基于划分的聚类方法/60
3.4.2基于层次的聚类方法/65
3.4.3基于密度的聚类方法/71
3.4.4聚类案例: 用户细分模型/74
3.5数据挖掘相关工具/74
3.5.1数据获取工具/75
3.5.2分词工具/77
3.5.3分类聚类工具/79
3.5.4Python调用方法/79第4章经典深度学习算法与平台/81
4.1神经网络基础/82
4.1.1神经元/82
4.1.2从神经元到神经网络/82
4.2循环神经网络/84
4.2.1RNN基本概念/84
4.2.2RNN的长期依赖问题与LSTM/85
4.2.3深度RNN和双向RNN/88
4.3卷积神经网络/89
4.4序列到序列模型/90
4.5注意力模型/91
4.6生成对抗网络/93
4.7TensorFlow计算图框架/95
4.7.1数据流图/95
4.7.2TensorFlow的特征/95
4.7.3官方入门教程/96
4.8PyTorch深度学习框架/103
4.8.1PyTorch是什么/103
4.8.2自动求导: 自动微分/104
4.8.3神经网络/105第5章信息检索与大数据搜索/110
5.1概述/110
5.2JZSearch大数据搜索引擎系统架构/110
5.3大数据精准搜索的基本技术/112
5.3.1索引字段类型/112
5.3.2索引词项的设计/113
5.3.3索引压缩技术/113
5.3.4内存交换/115
5.3.5增量索引/116
5.3.6数据库检索/117
5.4大数据精准搜索语法/118
5.4.1JZSearch排序算法/118
5.4.2JZSearch结果格式/119
5.4.3JZSearch检索语法说明/119
5.5JZSearch大数据精准搜索应用案例/123
5.5.1中国邮政集团邮址垂直搜索/124
5.5.2标准文档搜索引擎/124
5.5.3内网文档的知识搜索门户/125
5.5.4商品比价搜索/125
5.5.5维吾尔文搜索/125第6章汉语分词/127
6.1概述/127
6.2汉语分词的困难性/129
6.3基于机械匹配的汉语分词算法/132
6.3.1词典匹配法/132
6.3.2N最短路径法/136
6.4基于统计语言模型的汉语分词算法/137
6.4.1N元语言模型/138
6.4.2互信息模型/138
6.4.3最大熵模型/140
6.5NLPIRICTCLAS: 基于层叠隐马尔可夫模型的汉语分词算法/141
6.5.1层次隐马尔可夫模型/141
6.5.2基于类的隐马尔可夫分词算法/143
6.5.3N最短路径的切分排歧策略/145
6.6基于双向循环神经网络与条件随机场的词法分析/146
6.6.1概述/146
6.6.2基于双向循环神经网络的序列标注/146
6.6.3融合条件随机场的深度神经网络模型/148
6.7实验与分析/149
6.7.1评估方法/149
6.7.2实验分析1/149
6.7.3实验分析2/153第7章命名实体识别/157
7.1命名实体识别定义/157
7.2命名实体识别的研究主体/158
7.3命名实体识别的特点及难点/158
7.4命名实体识别的研究技术路径/159
7.5基于角色标注的命名实体识别/159
7.6实验与分析/162第8章新词发现/163
8.1基于规则的研究方法/164
8.1.1规则抽取方法/165
8.1.2规则过滤方法/165
8.2基于统计模型的研究方法/166
8.2.1凝固度/166
8.2.2信息熵/166
8.2.3新词IDF/167
8.3面向社会媒体的开放领域新词发现/167
8.3.1引言/167
8.3.2新词发现/168
8.3.3实验/171第9章文本分类与聚类/175
9.1文本预处理/175
9.2文本表示模型/176
9.2.1传统布尔检索与扩展布尔检索模型/177
9.2.2向量空间模型/177
9.2.3概率检索模型/180
9.2.4语言模型/181
9.3文本特征选择方法/182
9.3.1信息增量/183
9.3.2卡方统计/183
9.3.3交叉熵/183
9.4文本分类概述/184
9.5文本聚类概述/187
9.5.1聚类算法体系/187
9.5.2半监督聚类/188第10章话题发现算法/191
10.1多语语义串自动发现/195
10.2多语语义关键特征挖掘/197
10.2.1关键特征抽取/197
10.2.2单个文档Top N关键特征挖掘/198
10.3Top N热点话题发现和关联归并/198
10.3.1Top N热点话题发现/198
10.3.2话题归并/200
10.4多语文本话题发现与关联归类实验验证/201第11章情感分析/203
11.1概述/203
11.2情感分类/205
11.3应用/208
11.3.1用户评论分析与决策/208
11.3.2舆情监控/208
11.3.3信息预测/209
11.4情感词发现与极性权重自动计算算法/209
11.4.1引言/209
11.4.2情感词典构建模型/211
11.4.3实验/213
11.5基于树模型的无监督情感分析系统/216
11.5.1实现方法/216
11.5.2系统架构及流程/217
11.5.3实验分析及结论/219
11.6基于深度神经网络的短文本情感倾向性分析/221
11.6.1语料库建设/221
11.6.2词袋模型与文本建模/223
11.6.3基于Softmax和深度神经网络的短文本情感分析算法/225
11.6.4实验设计及实验结果/229第12章自动摘要/234
12.1概述/234
12.2基于关键词提取的自动摘要/238
12.3面向主题的自动摘要/244
12.4基于主题模型与信息熵的中文文档自动摘要技术研究/247
12.4.1主题模型/248
12.4.2信息熵/250
12.4.3句子信息熵的计算方法/250
12.4.4算法介绍/250
12.4.5实验结果/251
12.5自动摘要应用场景分析及大数据搜索与挖掘软件应用示例/252第13章大数据智能应用案例/254
13.1公安警情大数据挖掘/254
13.2网络赌博信息文本挖掘/257
13.2.1Web网页信息选择与提取/257
13.2.2中文分词及词性标注处理/258
13.2.3特征提取/259
13.2.4基于网络赌博信息的数据挖掘/260
13.2.5网络赌博信息可视化展示/262
13.3领导人支持信息挖掘/265
13.4微博博主的特征与行为大数据挖掘/268
13.4.1介绍/268
13.4.2宏观特征大数据挖掘/270
13.4.3实验与分析/275
13.4.4微博博主的价值观自动评估方法/275
13.5看图说话: 基于MaskRCNN的图片中文描述生成器/277
13.5.1自下而上的注意力机制在图像描述中的应用/278
13.5.2BottomUpAttention和TopDownAttention图像描述模型/280
13.5.3DenseAttention图像描述模型/281
13.5.4基于语义控制的长短时记忆模型/281
13.5.5模型训练相关说明及结果分析/283
13.5.6模型测试相关说明及结果分析/284
13.5.7测试结果分析/286第14章大数据智能课程经典作业汇编/288
14.1《红楼梦》前后作者同一性分析/288
14.2党的十九大报告语义智能分析/293
14.3文章风格对比: 方文山与汪峰/294
14.4智慧旅游大数据应用/295
14.5某大厦电力数据挖掘/298
14.6杭州市二手房房价分析/301
14.6.1概述/301
14.6.2房价分析系统案例介绍/301
14.6.3本例设计与实现/304
14.7数据挖掘在股票分析预测中的应用/306
14.7.1概述/306
14.7.2股票分析预测方法/307
14.7.3神经网络在股票分析预测应用中的研究现状/307
14.7.4实验结果/309
14.8基于TensorFlow的歌词自动生成/310
14.8.1算法说明/310
14.8.2实验结果/311
14.9基于LSTM的购物评论分类/312
14.9.1获取语料库比分词/312
14.9.2词向量的转换/313
14.9.3建立向量和单词列表/313
14.9.4将句子转换成序号矩阵/314
14.9.5模型训练/314