数据挖掘与知识发现 第二版
出版时间:2010年版
丛编项: 高等学校计算机科学与技术系列教材
内容简介
本书是普通高等教育“十一五”国家级规划教材。全书共12章,第1章详尽地阐述了数据挖掘与知识发现领域中的一些基本理论、研究方法和技术标准,简单介绍了相关产品和工具,讨论了KDD与数据挖掘的概念、数据挖掘对象、知识发现过程、研究方法以及相关的研究领域和应用范围。第2章~第9章详细地介绍了关联规则、聚类分析、决策树、贝叶斯网络、人工神经网络、支持向量机、粗糙集、模糊集等数据挖掘模型与算法。第10章讨论了模型选择与模型评估方法。第11章和第12章简单介绍了数据预处理方法和数据挖掘技术标准、数据挖掘可视化技术和数据挖掘工具开发方法,并简单介绍了数据挖掘产品和工具。本书可以作为计算机专业、信息类专业、管理类专业高年级本科生及研究生的教材或参考书,也可供有关人员学习参考。
目录
第1章 绪论
1.1 引言
1.2 KDD与数据挖掘
1.2.1 KDD定义
1.2.2 KDD过程
1.2.3 数据库技术发展与数据挖掘
1.3 数据挖掘的对象与环境
1.3.1 数据与系统特征
1.3.2 数据结构
1.3.3 数据库系统
1.4 数据挖掘方法与相关领域
1.4.1 数据挖掘相关领域
1.4.2 粗糙集
1.4.3 聚类
1.4.4 关联规则
1.4.5 决策树
1.4.6 模糊集
1.4.7 规则归纳
1.4.8 进化计算
1.5 KDD系统与应用
本章小结
习题1
第2章 关联规则
2.1 引言
2.2 关联规则基本模型
2.2.1 关联规则基本模型
2.2.2 Apriori算法
2.2.3 LIG算法
2.2.4 FP算法
2.3 多级关联规则与多维关联规则
2.3.1 多级关联规则
2.3.2 多维关联规则
2.4 关联规则价值衡量与发展
2.4.1 规则价值衡量
2.4.2 基于约束的关联规则
2.4.3 关联规则新进展
本章小结
习题2
第3章 聚类分析
3.1 聚类分析简介
3.2 聚类分析中的数据类型
3.3 划分方法
3.3.1 加均值算法
3.3.2 k-中心点算法
3.3.3 EM算法
3.4 层次方法
3.4.1 凝聚的和分裂的层次聚类
3.4.2 利用层次方法进行平衡迭代归约和聚类
3.4.3 利用代表点聚类
3.4.4 采用动态建模技术的层次聚类算法
3.5 基于密度的方法
3.6 基于网格的方法
3.7 基于模型的聚类方法
3.8 孤立点分析
本章小结
习题3
第4章 决策树
4.1 引言
4.2 信息论
4.2.1 信息传输与数据挖掘
4.2.2 信息论主要概念
4.3 ID3算法
4.4 决策树的剪枝
4.4.1 预剪枝
4.4.2 后剪枝
4.4.3 决策树的性能评价
4.5 决策树算法的改进
4.5.1 二叉树决策算法
4.5.2 按增益比率估值的方法
4.5.3 按分类信息估值的方法
4.5.4 按划分距离估值的方法
4.6 C4.5 算法
4.7 CART算法
4.8 SLIQ算法
4.9 决策树与数据预处理
4.9.1 数据概化与约简
4.9.2 抽样方法
4.9.3 维归约及特征子集的选取
4.9.4 冗余特征子集删除
4.9.5 离散化处理
4.9.6 改变数据结构
4.10 算法改进
4.10.1 多决策树综合技术
4.10.2 决策树的增量学习
本章小结
习题4
第5章 贝叶斯网络
5.1 贝叶斯网络基本概念
5.2 不确定性推理与联合概率分布
5.3贝叶斯网络中的独立关系
5.3.1 条件独立
5.3.2 有向分离和条件独立
5.3.3 因果影响独立
5.3.4 环境独立
5.4 贝叶斯网络学习
5.4.1 结构学习
5.4.2 搜索算法
5.4.3 基于约束的方法
5.4.4 参数学习
5.5 贝叶斯网络分类器
5.5.1 朴素贝叶斯网络分类器
5.5.2 半朴素贝叶斯分类器与选择贝叶斯分类器
5.5.3 树增广朴素贝叶斯网络分类器
5.5.4 广义朴素贝叶斯网络分类器
本章小结
习题5
第6章 人工神经网络
6.1 人工神经元及人工神经网络模型
6.1.1 M.P模型
6.1.2 人工神经元的形式化描述
6.1.3 神经网络的分类
6.1.4 人工神经网络的学习方式
6.2 前向神经网络
6.2.1 感知器
6.2.2 多层前向神经网络的BP算法
6.2.3 径向基函数神经网络
6.3 反馈神经网络
6.3.1 前向神经网络与反馈神经网络的比较
6.3.2 反馈神经网络模型
6.3.3 离散型Hopfield神经网络
6.3.4 连续型Hopfield神经网络
6.3.5 Boltzmarm机
6.4 自组织竞争神经网络模型
6.5 基于人工神经网络的数据挖掘
本章小结
习题6
第7章 支持向量机
7.1 学习机器泛化性能的界
7.1.1 VC维
7.1.2 Rn中有向超平面对点的打散
7.1.3 VC维和参数个数
7.1.4 通过最小化h最小化界
7.1.5 实例
7.1.6 结构风险最小化
7.2 线性支持向量机
7.2.1 可分情形
7.2.2 Karush-Kuim-TUckei·条件
7.2.3 测试
7.2.4 非可分情形
7.3 非线性支持向量机
7.3.1 硬间隔非线性支持向量机
7.3.2 软间隔非线性支持向量机
7.3.3 v-SVM分类器
7.3.4 处理不平衡数据的加权SVM
7.3.5 多类别SVM分类
7.3.6 Mercer。条件及Mercer定理
7.3.7 非线性支持向量机实例
7.4 支持向量机的VC维
7.5 支持向量机应用
7.5.1 手写体数字识别
7.5.2 文本分类
7.5.3 生物信息学中的SVM应用
本章小结
习题7
第8章 粗糙集
8.1 近似空间
8.1.1 近似空间与不可分辨关系
8.1.2 知识与知识库
8.2 近似与粗糙集
8.2.1 近似与粗糙集的基本概念
8.2.2 粗糙集的基本性质
8.3 粗糙集的特征描述
8.3.1 近似精度
8.3.2 粗糙集隶属函数
8.3.3 拓扑特征
8.4 知识约简
8.4.1 约简与核
8.4.2 相对约简和相对核
8.5 知识的依赖性
8.6 信息系统
8.6.1 信息系统的定义
8.6.2 分辨矩阵与分辨函数
8.7 决策表
8.8 决策规则
8.9 扩展的粗糙集模型
8.9.1 可变精度粗糙集模型
8.9.2 相似模型
本章小结
习题8
第9章 模糊集
9.1 模糊集定义与隶属函数
9.1.1 模糊集定义与隶属函数
9.1.2 模糊集合的表示法
9.2 模糊集的基本运算
9.3 分解定理与扩展原理
9.4 模糊集的特征
9.5 模糊集的度量
9.5.1 模糊度
9.5.2 模糊集间的距离
9.5.3 模糊集的贴近度
9.6 模糊关系
9.6.1 模糊关系定义
9.6.2 模糊关系的运算与性质
9.6.3 模糊等价关系与模糊相似关系
9.7 模糊聚类分析
9.7.1 模糊划分
9.7.2 模糊相似系数的标定方法
9.7.3 模糊聚类分析
9.7.4 传递闭包法
9.7.5 最大树法
9.7.6 模糊c-均值聚类
9.8 模糊集与粗糙集
本章小节
习题9
第10章 模型选择与模型评估
10.1 模型的过拟合
10.2 没有天生优越的分类器
10.3 模型、模型选择和模型评估
10.4 简单划分和交叉验证
10.5 自助法
10.6 Occam剃刀
10.7 最小描述长度准则
10.8 信息准则
10.8.1 Akaike信息准则
10.8.2 Bayesian信息准则
10.9 比较分类器的方法
10.9.1 估计准确率的置信区间
10.9.2 比较两个模型的性能
10.9.3 比较两种分类法的性能
10.1 0聚类评估
10.1 0.1 假设检验
10.1 0.2 聚类评估中的假设检验
10.1 0.3 相对准则
本章小结
习题10
第11章 数据预处理与可视化技术
11.1 数据清理
11.1.1 填补空缺值
11.1.2 消除噪声数据
11.1.3 实现数据一致性
11.2 数据集成与转换
11.2.1 数据集成
11.2.2 数据转换
11.3 数据归约与浓缩
11.3.1 数据立方体聚集
11.3.2 维归约
11.3.3 数据压缩
11.3.4 数值归约
11.4 概念分层
11.4.1 概念分层的概念
11.4.2 概念分层的类型
11.4.3 数值数据的概念分层与离散化
11.4.4 分类数据的概念分层
11.5 可视化技术概述
11.5.1 可视化技术分类
11.5.2 可视化技术在数据挖掘中的应用
11.6 过程可视化
11.7 数据可视化
11.7.1 折线图
11.7.2 复合饼图
11.7.3 散点图
11.7.4 盒图
11.7.5 平行坐标法
11.7.6 圆环分段表示
11.8 结果可视化
11.8.1 关联规则
11.8.2 分类
11.8.3 聚类
本章小结
习题11
第12章 数据挖掘工具与产品
12.1 数据挖掘标准
12.1.1 数据挖掘标准化概述
12.1.2 数据挖掘过程标准
12.1.3 数据挖掘接口标准
12.1.4 数据挖掘的语言标准
12.1.5 数据挖掘的Web标准
12.1.6 数据挖掘标准的应用与未来发展趋势
12.2 数据挖掘工具的介绍
12.2.1 数据挖掘工具发展过程概述
12.2.2 数据挖掘工具简介
12.2.3 WEKA
12.2.4 SPSS
12.3 数据挖掘产品分析
12.3.1 通用数据挖掘产品
12.3.2 专用挖掘产品
本章小结
习题12
附录中英文术语对照
参考文献