大数据系统安全技术实践
作者:尚涛,刘建伟
出版时间:2020年版
内容简介
大数据安全是网络空间安全领域中一个重要的研究方向。大数据系统安全是保障大数据安全的基础。《大数据系统安全技术实践》分析了现有的大数据安全需求,从系统安全的角度出发,探讨了基于Hadoop的身份认证、访问控制、数据加密、监控与审计、隐私保护等方面的大数据系统安全实用技术与关键技术,并结合大数据平台安全组件与服务,设计了大数据系统安全体系架构和一体化安全管理系统,用以满足大数据平台的安全需求。《大数据系统安全技术实践》分为13章,第1~3章介绍大数据系统的基础知识;第4~10章介绍大数据系统的实用安全技术;第11~13章介绍大数据系统的关键安全技术。《大数据系统安全技术实践》内容完整,描述方式由浅入深,可用作网络空间安全、计算机科学及其他相关交叉研究领域的教学科研参考书,也可作为相关技术人员的参考资料。《大数据系统安全技术实践》特点:大数据安全技术体系完整:《大数据系统安全技术实践》依据大数据安全体系,以主流的大数据平台Hadoop为例,介绍各种安全技术的实施,包括认证、访问控制、数据加密、监控、审计及安全管理。覆盖大数据安全前沿技术:《大数据系统安全技术实践》不仅介绍了实用的配置和方便的管理软件开发,而且探讨了属性基加密、远程数据审计、隐私保护等方面大数据安全的关键技术,为大数据安全技术深入研究提供扩展空间。选取大数据安全平台的典型案例:依托承担的国家重点研发计划项目“生殖健康大数据深度分析与安全保障技术研究”,《大数据系统安全技术实践》结合医疗健康的实际需求,设计可行的大数据系统安全保障技术,支持医疗健康大数据平台的管理和扩展。
目录
第1章 绪论 1
1.1 大数据的特点 1
1.2 大数据平台 2
1.3 医疗健康大数据的应用需求 3
1.4 国外研究现状及趋势 5
1.5 国内研究现状及趋势 6
第2章 大数据平台Hadoop的系统构成 9
2.1 Hadoop组件 9
2.1.1 HDFS 9
2.1.2 MapReduce 10
2.1.3 HBase 11
2.2 伪分布式Hadoop环境部署 12
2.3 分布式Hadoop环境部署 16
2.4 分布式MongoDB环境部署 18
2.4.1 MongoDB 18
2.4.2 环境设置 20
2.4.3 集群搭建 20
2.4.4 挂载磁盘 26
第3章 大数据平台Hadoop的安全机制 28
3.1 概述 28
3.2 Hadoop安全机制 29
3.2.1 基本的安全机制 29
3.2.2 总体的安全机制 30
3.3 Hadoop组件的安全机制 31
3.3.1 RPC安全机制 31
3.3.2 HDFS安全机制 31
3.3.3 MapReduce安全机制 34
3.4 Hadoop的安全性分析 36
3.4.1 Kerberos认证体系的安全问题 36
3.4.2 系统平台的安全问题 36
3.5 Hadoop安全技术架构 37
3.6 安全技术工具 39
3.6.1 系统安全 39
3.6.2 认证授权 40
3.6.3 数据安全 42
3.6.4 网络安全 44
3.6.5 其他集成工具 45
第4章 大数据系统安全体系 47
4.1 概述 47
4.2 相关研究 47
4.3 大数据面临的安全挑战 50
4.4 大数据安全需求 51
4.5 大数据安全关键技术 53
4.6 大数据系统安全体系框架 56
第5章 大数据系统身份认证技术 59
5.1 概述 59
5.2 Kerberos认证体系结构 59
5.3 身份认证方案 61
5.4 身份认证方案实现 63
5.5 Kerberos常用操作 68
5.5.1 基本操作 68
5.5.2 操作流程 69
第6章 大数据系统访问控制技术 71
6.1 概述 71
6.2 基于角色的访问控制方案 72
6.3 XACML语言框架 73
6.3.1 访问控制框架 73
6.3.2 策略语言模型 74
6.4 基于XACML的角色访问控制方案实现 75
6.4.1 角色访问控制策略描述 75
6.4.2 角色访问控制策略实现 76
6.4.3 角色访问控制策略测试 77
6.5 Sentry开源组件 79
6.6 基于Sentry的细粒度访问控制方案 80
6.6.1 加入环境属性约束的访问控制模型 80
6.6.2 MySQL安装配置 81
6.6.3 Hive安装配置 83
6.6.4 Sentry安装配置 85
6.6.5 细粒度访问控制模块实现 88
第7章 大数据系统数据加密技术 93
7.1 概述 93
7.2 透明加密 93
7.3 存储数据加密方案实现 95
7.3.1 实现步骤 95
7.3.2 参数说明 97
7.3.3 功能测试 97
7.4 SSL协议 98
7.4.1 SSL协议体系结构 98
7.4.2 SSL协议工作流程 99
7.4.3 Hadoop平台上SSL协议配置 99
7.5 传输数据加密方案实现 100
7.5.1 传输数据加密需求 100
7.5.2 Hadoop集群内部节点之间数据传输加密配置 101
7.5.3 Hadoop总体加密配置 102
第8章 大数据系统监控技术 103
8.1 概述 103
8.2 Ganglia开源工具 103
8.3 Ganglia环境部署 104
8.3.1 Ganglia测试集群rpm包安装方式 104
8.3.2 Ganglia测试集群编译安装方式 109
8.4 Ganglia配置文件 112
8.4.1 gmond配置文件 112
8.4.2 gmetad配置文件 121
8.4.3 gweb配置文件 122
8.5 基于Ganglia的状态监控方案实现 122
8.5.1 实现步骤 122
8.5.2 功能测试 123
8.6 基于Zabbix的监控报警方案实现 124
8.6.1 Zabbix简介 124
8.6.2 Zabbix安装配置 124
8.6.3 Web界面操作 127
第9章 大数据系统审计技术 136
9.1 概述 136
9.2 审计方案 137
9.3 开源软件ELK 138
9.4 ELK安装配置 139
9.4.1 Elasticsearch安装 139
9.4.2 Logstash安装 141
9.4.3 Kibana安装 142
9.5 基于ELK的审计方案实现 143
9.5.1 实现步骤 143
9.5.2 功能测试 143
第10章 大数据系统一体化安全管理技术 146
10.1 概述 146
10.2 网络结构设计 146
10.3 安全模块设计 148
10.4 软件开发架构 151
10.5 软件运行流程 152
10.6 软件界面 153
10.7 软件测试 159
第11章 大数据系统属性基加密关键技术 163
11.1 概述 163
11.2 预备知识 164
11.2.1 群知识 164
11.2.2 双线性配对 165
11.2.3 拉格朗日插值定理 165
11.2.4 访问结构 165
11.3 属性基加密方案 167
11.3.1 传统的属性基加密方案 167
11.3.2 改进的属性基加密方案 168
11.4 属性基加密方案的实现 169
11.4.1 属性基加密算法 169
11.4.2 属性基加密模块 170
11.5 基于属性的大数据认证加密一体化方案 172
11.5.1 方案整体架构 172
11.5.2 方案运行流程 173
11.5.3 安全性分析 175
11.5.4 功能测试 175
11.5.5 性能测试 176
11.5.6 方案总结 177
第12章 大数据系统远程数据审计关键技术 178
12.1 概述 178
12.2 远程数据审计方案 179
12.2.1 基于两方模型的远程数据审计方案 179
12.2.2 基于三方模型的远程数据审计方案 180
12.2.3 远程数据审计方案需求 181
12.3 预备知识 181
12.3.1 密码学基础 182
12.3.2 数据结构 182
12.3.3 分布式计算框架 184
12.3.4 系统审计模型 185
12.4 单用户远程动态数据审计方案 186
12.4.1 方案描述 186
12.4.2 方案分析 189
12.4.3 方案总结 192
12.5 支持并行计算的单用户远程动态数据审计方案 192
12.5.1 方案描述 192
12.5.2 更新算法描述 193
12.5.3 并行计算算法设计 196
12.5.4 方案分析 199
12.5.5 方案总结 201
12.6 多用户远程动态数据审计方案 201
12.6.1 方案描述 202
12.6.2 动态更新 204
12.6.3 方案分析 206
12.6.4 方案总结 209
第13章 大数据系统隐私保护关键技术 210
13.1 概述 210
13.2 隐私保护方案 211
13.2.1 隐私保护研究现状 211
13.2.2 隐私保护聚类技术研究现状 212
13.2.3 隐私保护分类技术研究现状 213
13.3 预备知识 214
13.3.1 k-means算法 214
13.3.2 决策树C4.5算法 215
13.3.3 差分隐私 216
13.4 面向聚类的隐私保护方案 216
13.4.1 基于MapReduce框架的优化Canopy算法 217
13.4.2 基于MapReduce框架的DP k-means算法 218
13.4.3 实验结果 218
13.5 面向分类的隐私保护方案 219
13.5.1 等差隐私预算分配 220
13.5.2 基于MapReduce的差分隐私决策树C4.5算法 220
13.5.3 实验结果 221
13.6 方案总结 223
参考文献 224