大数据时代的网络舆情分析
作者:武装著
出版时间: 2018年版
内容简介
本书以基于Hadoop的信息挖掘平台为基础,实现语义挖掘、关键信息抽取和情感倾向性分析。构建互联网数据可视化框架,分析事件趋势特征和相关指标。在上述基础之上,针对数据的多维分析,信息可视化将纷繁抽象的结构化数据表示成为可见的图形图像。同时,通过进行预警评估分级,实时研判舆情,根据舆情预警级别做出相应的处置部署,从而使辅助决策更加具有针对性。
目录
第 1章 大数据概述 1
1.1 研究背景 1
1.2 国内外研究概况 2
1.2.1 国内研究概况 2
1.2.2 国外研究概况 3
1.3 大数据理论 5
1.3.1 大数据定义 5
1.3.2 大数据特征 6
1.4 发展情况 7
1.4.1 国外发展情况 7
1.4.2 国内发展情况 8
1.4.3 大数据发展环境与策略 8
1.4.4 大数据产业发展状况 9
1.4.5 大数据发展趋势 10
1.5 大数据发展面临的挑战与机遇 13
1.5.1 大数据发展面临的挑战 13
1.5.2 大数据发展带来的机遇 14
1.6 大数据应用 15
1.7 本章小结 18
第 2章 云计算概述 19
2.1 传统数据中心 19
2.1.1 数据中心的概念 19
2.1.2 传统数据中心的构建 19
2.1.3 传统数据中心存在的问题 21
2.2 云数据中心的构建 21
2.2.1 虚拟化 22
2.2.2 资源池化 26
2.2.3 自动化 27
2.3 数据中心的管理 27
2.4 云计算概论 30
2.4.1 国内外研究发展现状 30
2.4.2 云计算发展历程 32
2.4.3 云计算的概念 35
2.4.4 云计算的服务交付模式 37
2.4.5 云计算的原理 39
2.4.6 云计算的核心技术 41
2.4.7 云计算部署方式 43
2.4.8 云计算面临的问题和机遇 44
2.4.9 云计算的应用 46
2.5 云计算平台架构 48
2.5.1 云计算平台架构简介 48
2.5.2 云计算平台架构的设计 49
2.6 云计算的业界动态 50
2.6.1 IBM 50
2.6.2 Amazon 54
2.6.3 Salesforce 63
2.6.4 Microsoft 64
2.7 云计算的安全风险分析 66
2.7.1 云计算平台安全风险 66
2.7.2 数据安全风险 66
2.7.3 虚拟机引发的新安全风险 67
2.7.4 其他安全风险 67
2.8 本章小结 68
第 3章 Hadoop概况 69
3.1 Hadoop的简介 69
3.2 Hadoop的特点 70
3.3 HDFS分布式文件系统 70
3.3.1 HDFS的架构 70
3.3.2 HDFS的数据组织方式 72
3.3.3 HDFS文件读写分析 73
3.3.4 HDFS的缺点 74
3.4 MapReduce分布式计算框架 75
3.4.1 MapReduce的执行流程 76
3.4.2 MapReduce的调度机制与容错机制 77
3.4.3 MapReduce的性能 78
3.5 HBase分布式存储查询系统 79
3.5.1 HBase架构 80
3.5.2 HBase的存储 82
3.5.3 HBase的数据模型 84
3.6 Hive数据仓库基础架构 86
3.6.1 Hive的架构 86
3.6.2 Hive与传统数据库的比较 87
3.7 Zookeeper分布式协调服务 88
3.8 Hadoop的其他子项目 89
3.8.1 Avro数据序列化的系统 89
3.8.2 Pig 89
3.8.3 Ambari 89
3.8.4 Sqoop 91
3.9 Hadoop的应用现状 92
3.10 本章小结 94
第 4章 网络舆情的理论基础 95
4.1 研究背景 95
4.2 网络舆情的概念 96
4.3 网络舆情的构成要素 97
4.4 网络舆情的特点 98
4.5 网络舆情的作用 99
4.6 网络舆情演化过程与监控预警 99
4.7 相关理论基础综述 100
4.7.1 复杂网络理论 100
4.7.2 群体行为理论 105
4.7.3 用户影响力评价理论 108
4.7.4 社会网络理论 109
4.8 本章小结 111
第 5章 微博及其解释结构模型的构建 113
5.1 微博的文本特性 113
5.2 微博文本的特征分析 114
5.3 微博用户群体行为的解释结构模型 116
5.3.1 影响微博群体行为的因素 116
5.3.2 解释结构模型的确立 122
5.3.3 模型结论解释与分析 134
5.4 本章小结 134
第 6章 基于 Hadoop的文本信息抽取系统开发 135
6.1 背景 135
6.1.1 文本信息抽取系统的意义与作用 135
6.1.2 目前网络舆情监测相关的关键性技术 136
6.2 文本信息抽取系统所采用的技术 137
6.3 文本信息抽取系统的总体设计 138
6.3.1 系统总体设计 138
6.3.2 主要功能模块 139
6.4 系统功能的具体实现 141
6.4.1 网络爬虫模块的实现 141
6.4.2 Hadoop模块实现 146
6.4.3 PHP模块实现 149
6.5 系统测试 152
6.6 本章小结 154
第 7章 网络舆情传播网络结构的研究 155
7.1 网络信息传播 155
7.2 微博网络拓扑性质分析 156
7.2.1 复杂网络特性 156
7.2.2 微博网络度的分布 156
7.2.3 微博网络拓扑结构对信息传播的影响 158
7.3 网络舆情的形成与传播过程 158
7.4 微博用户信息传播能力分析 159
7.4.1 用户自身属性 160
7.4.2 社团密度 160
7.5 网络舆情发展演化规律分析 161
7.5.1 网络舆情发展过程与传播主体分析 161
7.5.2 突发性公共危机事件网络舆情演化路径分析 163
7.5.3 内外源动力影响因素 165
7.6 微博舆情的信息传播模型 167
7.6.1 微博舆情话题领域与用户分类 167
7.6.2 微博舆情的信息传播模型 168
7.7 不同领域的微博突发事件舆情实例分析 170
7.7.1 实验数据集的采集 170
7.7.2 娱乐领域舆情实例分析 170
7.7.3 民生领域舆情实例分析 177
7.7.4 经济领域舆情实例分析 183
7.7.5 各领域事件对比分析 188
7.8 本章小结 189
第 8章 经济领域网络舆情传播问题的研究 191
8.1 经济领域突发事件网络舆情的演进机制研究 191
8.1.1 经济领域突发事件网络舆情的演化模式 191
8.1.2 经济领域突发事件网络舆情作用要素分析 193
8.1.3 经济领域突发事件网络舆情的演化周期分析 195
8.2 突发事件网络舆情的演进及仿真模型的构建分析 197
8.2.1 经济领域突发事件网络舆情演进传播模型的构建 197
8.2.2 经济领域突发事件网络舆情演进传播模型 199
8.3 经济领域突发事件舆情实例分析 203
8.3.1 常规状态下“3.17北京房市调控新政”案例 203
8.3.2 非常规状态下“华万股权之争”案例 210
8.4 本章小结 215
第 9章 网络舆情的情感分析研究 217
9.1 文本情感分类基础研究 217
9.1.1 文本分词 217
9.1.2 文本表示方法 218
9.2 基于微博情感分析的网络舆情热点发现模型 222
9.2.1 模型设计 223
9.2.2 基于贝叶斯分类算法的情感分类器构造 225
9.2.3 基于词共现图的事件提取方法 227
9.3 生态领域的突发事件舆情实例分析 229
9.3.1 生态领域热点内容分析 229
9.3.2 生态环境问题舆情案例分析 230
9.3.3 生态环境问题的舆情引导措施 241
9.4 本章小结 245
第 10章 网络舆情指标体系设计与分析 247
10.1 Web数据特征分析 247
10.1.1 数据源特征分析 247
10.1.2 微博的数据模型 248
10.1.3 数据收集和管理 248
10.2 模型和数据指标的构建 249
10.2.1 突发事件网络舆情数据主要分析指标 249
10.2.2 什么是指标体系 250
10.2.3 主要算法 250
10.3 突发事件网络舆情监控预警指标体系的设计 250
10.3.1 网络舆情监测指标体系框架设计 250
10.3.2 舆情发布者指标 252
10.3.3 舆情热度指标 253
10.3.4 舆情受众指标 254
10.3.5 舆情传播指标 254
10.3.6 指标体系权重系数的确定 255
10.4 本章小结 256
第 11章 网络舆情预警机制研究 257
11.1 绪论 257
11.1.1 网络舆情监控预警 257
11.1.2 存在的主要问题 257
11.2 突发事件网络舆论的传播机制 258
11.2.1 突发事件网络舆论震荡周期 258
11.2.2 突发事件网络舆论的媒介路线 261
11.2.3 突发事件网络舆论噪声流的形成 261
11.2.4 突发事件网络小世界特性 262
11.2.5 突发事件网络中联合度分布 265
11.3 基于情感计算的网络舆情预警指标体系 266
11.3.1 基于情感计算的网络舆情预警指标体系 266
11.3.2 网络舆情预警指标的权重系数 267
11.4 网络舆情预警模型系统构建 269
11.4.1 各个指标具体的情感值计算 269
11.4.2 综合指标情感值计算 270
11.4.3 对于网络舆情严重性的预警等级 270
11.5 以世界卫生组织关注中国疫苗事件及“辱母杀人案”为实证研究 271
11.5.1 取证过程及方法步骤 271
11.5.2 世界卫生组织关注中国疫苗事件 272
11.5.3 世界卫生组织关注中国疫苗事件舆情取证 273
11.5.4 世界卫生组织关注中国疫苗事件的数据抓取 275
11.5.5 “辱母杀人案”事件 279
11.5.6 “辱母杀人案”事件网络舆情时间微舆情取证 279
11.5.7 “辱母杀人案”事件中情感指标的抓取和模型验证 283
11.5.8 “辱母杀人案”事件人民日报发声的取证研究 286
11.6 突发事件舆情演化的社会网络分析 290
11.6.1 社会网络分析方法的应用 290
11.6.2 突发事件舆情演进传播的社会网络结构图 290
11.7 社会舆情发酵特点 293
11.7.1 焦点事件呈现区域与行业化分布293
11.7.2 传统媒体的“脱敏”效应 294
11.7.3 标签化往往遭遇舆情反转 294
11.8 本章小结 295
第 12章 网络舆情传播的监管策略 297
12.1提升网络用户的媒介素养 297
12.2 发挥意见领袖的舆论引导功能 298
12.3 加强信息把关制度 299
12.4 提高公众在网络舆情中的理性 300
12.5 建立网络舆情预警对策 301
12.6 建立信息公开和舆论引导机制 302
12.7 本章小结 303
参考文献 305