欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

大数据挖掘技术与应用

收藏
  • 大小:108.33 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
大数据挖掘技术与应用
作者:孟海东,宋宇辰 著
出版时间:2014年版
内容简介
  本书针对数据的海量性、复杂性、高维性、模糊性和不完整性,对数据挖掘技术中的聚类分析和关联规则分析进行了系统的研究。设计与实现了基于密度和自适应密度可达聚类算法、基于簇特征的动态增量聚类算法、并行聚类算法、基于密度加权的模糊聚类算法、高唯复杂数据聚类算法、基于数据场的聚类算法、基于距离的量化关联规则和基于数据场的量化关联规则算法,给出了在矿产资源评价、遥感图像分类、矿业经济分析中的应用例证。全书共分11章,主要内容包括:绪论,基于密度和密度可达聚类分析,基于簇特征的动态增量聚类分析,并行聚类分析,基于密度加权的模糊聚类分析,高唯复杂数据聚类分析,基于数据场的聚类分析,基于距离的量化关联规则,基于数据场的量化关联规则,数据挖掘结果可视化和数据挖掘算法应用。
目录
1 绪论 1………………………………………………………………………………
1.1 大数据 1………………………………………………………………………
1.1.1 大数据概念 1……………………………………………………………
1.1.2 大数据特征 4……………………………………………………………
1.2 云计算与大数据挖掘 5………………………………………………………
1.2.1 云计算 5…………………………………………………………………
1.2.2 大数据挖掘 6……………………………………………………………
1.3 传统数据挖掘 6………………………………………………………………
1.3.1 数据源与挖掘任务 7……………………………………………………
1.3.2 数据挖掘方法 7…………………………………………………………
1.3.3 数据挖掘面临问题 9……………………………………………………
参考文献 10…………………………………………………………………………
2 基于属性加权和密度聚类分析 11…………………………………………………
2.1 聚类分析技术 11………………………………………………………………
2.1.1 数据基础 11………………………………………………………………
2.1.2 聚类分析方法 16…………………………………………………………
2.1.3 簇的类型 16………………………………………………………………
2.2 聚类算法 17……………………………………………………………………
2.2.1 聚类算法分类 17…………………………………………………………
2.2.2 聚类算法特性 19…………………………………………………………
2.2.3 选用聚类算法参考因素 20………………………………………………
2.2.4 聚类算法面临的挑战 21…………………………………………………
2.3 聚类算法改进 23………………………………………………………………
2.3.1 聚类算法分析 23…………………………………………………………
2.3.2 数据对象属性加权 25……………………………………………………
2.3.3 基于属性加权K-means算法 27…………………………………………
2.3.4 实例验证算法 28…………………………………………………………
2.4 基于密度与对象方向聚类算法 29……………………………………………
2.4.1 算法的提出 29……………………………………………………………
2.4.2 DENCLUE算法 30………………………………………………………
2.4.3 算法设计 31………………………………………………………………
2.5 CABWAD算法实现 36………………………………………………………
2.5.1 数据结构建立 36…………………………………………………………
2.5.2 数据结构上聚类 38………………………………………………………
2.5.3 时间和空间复杂度 40……………………………………………………
2.6 实验分析 40……………………………………………………………………
2.6.1 准确度分析 41……………………………………………………………
2.6.2 可扩展性分析 43…………………………………………………………
参考文献 44…………………………………………………………………………
3 基于密度与密度可达聚类分析 46…………………………………………………
3.1 CABWAD算法分析 46………………………………………………………
3.1.1 算法过程分析 46…………………………………………………………
3.1.2 两个输入参数的分析 47…………………………………………………
3.2 算法设计与分析 50……………………………………………………………
3.2.1 相关定义 50………………………………………………………………
3.2.2 CADD算法设计 53………………………………………………………
3.2.3 算法执行过程分析 53……………………………………………………
3.3 实验分析 55……………………………………………………………………
3.3.1 不同分布形态的簇(缠绕簇) 55………………………………………
3.3.2 不同密度的簇 56…………………………………………………………
3.3.3 分布在不同密度噪声中的变密度簇 57…………………………………
3.3.4 复杂形态簇 58……………………………………………………………
3.3.5 算法复杂度分析 59………………………………………………………
参考文献 60…………………………………………………………………………
4 动态增量聚类分析 62………………………………………………………………
4.1 算法提出 62……………………………………………………………………
4.1.1 增量聚类算法 62…………………………………………………………
4.1.2 CADD算法分析 64………………………………………………………
4.1.3 抽样技术 66………………………………………………………………
4.2 基于密度可达的动态增量聚类算法 67………………………………………
4.2.1 算法设计 67………………………………………………………………
4.2.2 算法实现 69………………………………………………………………
4.2.3 算法复杂度分析 69………………………………………………………
4.3 基于子簇特征的增量聚类算法 70……………………………………………
4.3.1 相关定义 70………………………………………………………………
4.3.2 算法设计 72………………………………………………………………
4.3.3 算法实现 72………………………………………………………………
4.4 实验分析 73……………………………………………………………………
4.4.1 仿真动态增量聚类 73……………………………………………………
4.4.2 算法对比分析 77…………………………………………………………
参考文献 78…………………………………………………………………………
5 并行聚类分析 80……………………………………………………………………
5.1 并行计算技术 80………………………………………………………………
5.1.1 并行计算定义 81…………………………………………………………
5.1.2 并行计算分类 81…………………………………………………………
5.1.3 并行计算模型和体系结构 82……………………………………………
5.1.4 并行数据挖掘 85…………………………………………………………
5.1.5 并行聚类分析 86…………………………………………………………
5.2 并行聚类算法设计与实现 88…………………………………………………
5.2.1 算法总体流程 88…………………………………………………………
5.2.2 数据并行聚类算法 89……………………………………………………
5.2.3 数据并行和任务并行聚类算法 90………………………………………
5.3 实验分析 92……………………………………………………………………
5.3.1 算法有效性分析 92………………………………………………………
5.3.2 算法加速比分析 92………………………………………………………
5.3.3 算法时间复杂度分析 93…………………………………………………
5.3.4 PCADD与CADD算法执行时间对比 93………………………………
参考文献 94…………………………………………………………………………
6 高维多类型属性数据对象聚类分析 95……………………………………………
6.1 高维多类型属性数据对象 95…………………………………………………
6.1.1 高维数据处理 95…………………………………………………………
6.1.2 多类型属性处理 96………………………………………………………
6.1.3 高维数据对象聚类 96……………………………………………………
6.1.4 多类型属性数据对象聚类 98……………………………………………
6.2 维度对聚类算法精度影响 99…………………………………………………
6.2.1 高维数据聚类 99…………………………………………………………
6.2.2 数据集与相关定义 99……………………………………………………
6.2.3 实验结果及分析 100……………………………………………………
6.3 多类型属性数据聚类分析 103………………………………………………
6.3.1 处理多类型数据方法 103………………………………………………
6.3.2 聚类效果度量标准 103…………………………………………………
6.3.3 实验结果及分析 104……………………………………………………
6.4 基于属性加权的高维数据聚类 108…………………………………………
6.4.1 属性加权CADD算法 108………………………………………………
6.4.2 实验结果及分析 109……………………………………………………
参考文献 113…………………………………………………………………………
7 基于密度加权模糊聚类分析 115…………………………………………………
7.1 模糊聚类分析 115……………………………………………………………
7.1.1 模糊聚类产生 115………………………………………………………
7.1.2 模糊聚类分类 116………………………………………………………
7.1.3 模糊聚类算法优化 117…………………………………………………
7.2 模糊聚类算法 118……………………………………………………………
7.2.1 模糊簇 118………………………………………………………………
7.2.2 HC-means聚类算法 118…………………………………………………
7.2.3 FC-means聚类算法 119…………………………………………………
7.2.4 HCM和FCM的关系 120………………………………………………
7.2.5 FCM算法存在问题分析 121……………………………………………
7.3 基于密度函数加权的FCM 122………………………………………………
7.3.1 聚类算法提出 122………………………………………………………
7.3.2 聚类算法设计 123………………………………………………………
7.3.3 实验结果及分析 124……………………………………………………
参考文献 132…………………………………………………………………………
8 基于距离量化关联规则挖掘 135…………………………………………………
8.1 关联规则挖掘 135……………………………………………………………
8.1.1 关联规则相关概念 135…………………………………………………
8.1.2 关联规则度量 137………………………………………………………
8.1.3 关联规则分类 138………………………………………………………
8.1.4 关联规则挖掘模型与步骤 139…………………………………………
8.2 量化关联规则 140……………………………………………………………
8.2.1 量化关联规则提出 140…………………………………………………
8.2.2 量化关联规则定义 143…………………………………………………
8.2.3 算法描述 145……………………………………………………………
8.2.4 算法分析 146……………………………………………………………
8.3 基于距离算法设计与实现 148………………………………………………
8.3.1 算法设计 148……………………………………………………………
8.3.2 数据预处理 149…………………………………………………………
8.3.3 基于距离量化规则 150…………………………………………………
8.3.4 簇间关联度的度量 150…………………………………………………
8.3.5 关联度参数 D 0 限定 151…………………………………………………
8.3.6 规则的生成 153…………………………………………………………
8.4 算法实验分析 153……………………………………………………………
8.4.1 系统交互界面 153………………………………………………………
8.4.2 地球化学数据分析 154…………………………………………………
8.4.3 临床医学调查数据 156…………………………………………………
参考文献 156…………………………………………………………………………
9 基于数据场的数据挖掘技术 158…………………………………………………
9.1 数据场 158……………………………………………………………………
9.1.1 数据场的概念 158………………………………………………………
9.1.2 数据场主要特征 159……………………………………………………
9.1.3 数据场表达 159…………………………………………………………
9.2 数据场聚类算法 161…………………………………………………………
9.2.1 数据场聚类算法设计 161………………………………………………
9.2.2 测试数据集产生 162……………………………………………………
9.2.3 位场聚类实验 162………………………………………………………
9.2.4 辐射场聚类实验 163……………………………………………………
9.2.5 参数对数据场聚类效果影响 164………………………………………
9.3 聚类效果实验分析 166………………………………………………………
9.3.1 模拟数据分析 166………………………………………………………
9.3.2 UCI数据集实验 168……………………………………………………
9.4 基于数据场量化关联规则挖掘 172…………………………………………
9.4.1 常用量化关联规则挖掘方法 172………………………………………
9.4.2 算法相关定义 173………………………………………………………
9.4.3 算法设计与实现 175……………………………………………………
9.5 关联规则挖掘实验与分析 176………………………………………………
9.5.1 身体脂肪bodyfat数据集 176……………………………………………
9.5.2 临床医学数据实验测试 178……………………………………………
参考文献 179…………………………………………………………………………
10 基于MapReduce聚类分析 181……………………………………………………
10.1 Hadoop开源云计算平台 181………………………………………………
10.1.1 MapReduce 181…………………………………………………………
10.1.2 HDFS文件系统 183……………………………………………………
10.1.3 基于MapReduce聚类算法 184…………………………………………
10.2 基于MapReduce K-means算法改进 186……………………………………
10.2.1 距离三角不等式聚类算法 186…………………………………………
10.2.2 距离三角不等式算法设计 187…………………………………………
10.2.3 聚类算法实验结果分析 189……………………………………………
10.3 基于MapReduce CADD聚类算法 191………………………………………
10.3.1 算法设计 191……………………………………………………………
10.3.2 MapReduce聚类模型 192………………………………………………
10.3.3 聚类算法实验结果分析 193……………………………………………
参考文献 195…………………………………………………………………………
11 数据挖掘结果可视化表达 196……………………………………………………
11.1 可视化数据挖掘 196…………………………………………………………
11.1.1 数据可视化 197…………………………………………………………
11.1.2 数据挖掘过程可视化 198………………………………………………
11.1.3 数据挖掘结果可视化 198………………………………………………
11.1.4 交互式可视化数据挖掘 199……………………………………………
11.2 数据可视化方法及分类 200…………………………………………………
11.2.1 基于几何的技术 200……………………………………………………
11.2.2 面向像素的技术 202……………………………………………………
11.2.3 基于图标的技术 202……………………………………………………
11.2.4 基于层次的技术 203……………………………………………………
11.3 可视化数据挖掘系统设计与实现 204………………………………………
11.3.1 可视化挖掘系统 204……………………………………………………
11.3.2 聚类结果可视化 205……………………………………………………
11.3.3 关联规则结果可视化 208………………………………………………
参考文献 212…………………………………………………………………………
12 地球化学数据挖掘(Ⅰ) 214……………………………………………………
12.1 地球化学数据处理方法 214…………………………………………………
12.1.1 传统处理方法 214………………………………………………………
12.1.2 数据挖掘方法 215………………………………………………………
12.2 地球化学数据聚类分析 217…………………………………………………
12.2.1 地球化学数据来源 217…………………………………………………
12.2.2 区域地质概况 217………………………………………………………
12.2.3 聚类分析研究 221………………………………………………………
12.2.4 靶区地球化学特征 222…………………………………………………
12.3 区域矿产资源预测 225………………………………………………………
12.3.1 地球化学异常靶区 225…………………………………………………
12.3.2 元素组合特征分析 226…………………………………………………
12.3.3 区域矿产资源预测 232…………………………………………………
参考文献 234…………………………………………………………………………
13 地球化学数据挖掘(Ⅱ) 236……………………………………………………
13.1 区域地质形貌 236……………………………………………………………
13.1.1 自然地理环境 236………………………………………………………
13.1.2 区域地质概况 236………………………………………………………
13.2 地球化学元素聚类分析 239…………………………………………………
13.2.1 数据整理和建立数据库 239……………………………………………
13.2.2 地球化学数据聚类分析 239……………………………………………
13.2.3 聚类结果MapGIS成图 241……………………………………………
13.3 地球化学元素组合特征分析 243……………………………………………
13.3.1 靶区1~4元素组合特征 243…………………………………………
13.3.2 靶区5元素组合特征 243………………………………………………
13.3.3 矿产资源预测 244………………………………………………………
13.4 地球化学元素模糊C-means聚类 247………………………………………
13.4.1 某金矿区模糊C-means聚类分析 247…………………………………
13.4.2 某锡矿区模糊C-means聚类分析 248…………………………………
13.4.3 某采样地区模糊C-means聚类分析 249………………………………
参考文献 250…………………………………………………………………………
14 资源与经济发展关系分析 252……………………………………………………
14.1 资源与经济 252………………………………………………………………
14.1.1 矿产资源开发 252………………………………………………………
14.1.2 传统研究方法 253………………………………………………………
14.2 数据源与数据预处理 256……………………………………………………
14.2.1 数据的选取 256…………………………………………………………
14.2.2 数据标准化 257…………………………………………………………
14.3 聚类分析 258…………………………………………………………………
14.3.1 资源储量属性 258………………………………………………………
14.3.2 环境指标属性 260………………………………………………………
14.3.3 经济指标属性 262………………………………………………………
14.3.4 技术指标属性 275………………………………………………………
14.3.5 结论与建议 278…………………………………………………………
参考文献 280…………………………………………………………………………
下载地址