数据挖掘基础与应用实例
作者:蒋盛益,张钰莎,王连喜 编著
出版时间:2015年版
内容简介
本教材是广东外语外贸大学广东服务外包人才培训基地《服务外包系列教材》之一,本教材可作为全国各类服务外包培训机构和组织的专业培训教材,亦可作为希望对服务外包行业了解更多或希望从事服务外包工作的各大专院校学生和有关政府部门、企业管理人员及技术人员的培训教材和参考书。\n本书在介绍了数据挖掘的基本原理和方法之后,讲述了多个应用领域案例,旨在使读者了解和掌握数据挖掘技术的理念和算法,熟悉数据挖掘技术应用的流程和分析方法,引导读者理解和利用数据挖掘技术解决实际领域中的现实问题,从而为今后的数据分析工作夯实基础。全书分为三大部分,包括上篇——入门篇、中篇——基础篇和下篇——提高篇,共10章。\n入门篇从全局视角对数据挖掘的基本概念、任务、建模过程、应用前景以及数据挖掘工具Clementine软件进行介绍。\n基础篇对数据挖掘的主流分析技术进行介绍,并对一些经典算法进行了详细的描述和示例讲解,同时对部分算法进行了对比\n提高篇是入门篇与基础篇内容的延伸与拓展,是数据挖掘技术在不同行业领域的具体应用。本书除了介绍数据挖掘的经典方法之外,也参考了很多国内外的研究成果,同时也融入了作者们的部分研究成果。
目录
上篇数据挖掘入门篇
第1章数据挖掘概述
1.1数据挖掘引例
1.1.1Target和怀孕预测指数
1.1.2Amazon和个性化推荐
1.1.3Google用搜索关键词监测流感
1.1.4智能搜索
1.2数据挖掘简介
1.2.1数据挖掘产生的背景
1.2.2数据挖掘的定义
1.2.3数据挖掘任务
1.2.4数据挖掘过程
1.2.5数据挖掘十大经典算法
1.3数据挖掘应用
1.3.1商业领域的应用
1.3.2互联网技术领域的应用
1.3.3其他应用领域
1.4数据挖掘工具及软件
1.4.1数据挖掘工具分类
1.4.2数据挖掘工具选择需要考虑的问题
1.4.3数据挖掘工具介绍
1.5数据挖掘技术的前景
1.6数据挖掘与隐私保护
1.7本章小结
习题1
第2章Clementine概述
2.1Clementine简介
2.2Clementine数据流操作
2.2.1生成数据流的基本过程
2.2.2节点操作
2.2.3超节点
2.3输入、输出节点介绍
2.3.1数据源节点
2.3.2类型节点
2.3.3表节点
2.3.4数据导出节点
2.4数据可视化节点介绍
2.4.1数据审核节点
2.4.2网络节点
2.5数据挖掘建模过程
2.5.1业务理解
2.5.2数据理解
2.5.3数据准备
2.5.4建模
2.5.5评估
2.5.6部署
2.6辛普森悖论
2.7本章小结
习题2
中篇数据挖掘基础篇
第3章数据预处理
3.1数据预处理概述
3.2数据清理
3.2.1缺失值的处理
3.2.2噪声数据的处理
3.2.3不一致数据的处理
3.3数据集成
3.4数据变换
3.4.1数据泛化
3.4.2规范化
3.4.3特征构造
3.4.4数值属性离散化
3.5数据归约
3.5.1数据立方体聚集
3.5.2特征选择
3.5.3抽样
3.6Clementine中相关节点介绍
3.6.1导出节点
3.6.2特征选择节点
3.6.3抽样节点
3.6.4选择节点
3.6.5分区节点
3.6.6分箱节点
3.6.7平衡节点
3.6.8排序节点
3.7本章小结
习题3
第4章分类与回归
4.1分类与回归技术概述
4.2决策树分类方法
4.2.1决策树的基本概念
4.2.2构建决策树的要素
4.2.3Hunt算法
4.2.4C4.5算法
4.2.5CART算法
4.2.6C4.5与CART算法对比
4.3贝叶斯分类方法
4.3.1贝叶斯定理
4.3.2朴素贝叶斯分类算法
4.3.3贝叶斯信念网络
4.4K—最近邻分类方法
4.4.1最近邻分类的基本概念
4.4.2KNN算法优缺点
4.5Logistic回归
4.5.1二元Logistic回归模型
4.5.2Logistic回归模型的系数估计
4.5.3显著性检验
4.5.4回归方程的拟合优度检验
4.6分类模型的评价
4.7回归分析
4.7.1线性回归模型的表示
4.7.2线性回归模型的检验
4.7.3非线性回归
4.8集成分类
4.8.1集成学习的过程描述
4.8.2构建集成分类器的方法
4.8.3集成分类方法的优缺点
4.9Clementine中相关节点介绍
4.9.1C5.0节点
4.9.2C&R Ttee节点
4.9.3BayesNet节点
4.9.4线性回归节点
4.9.5逻辑回归节点
4.9.6Ensemble节点
4.9.7分析节点
4.9.8评估节点
4.10案例4—1:分类技术在信用风险贷款分析中的应用
4.10.1商业理解
4.10.2数据理解
4.10.3数据准备
4.10.4数据建模
4.10.5模型评估
4.10.6模型部署
4.11案例4—2:Logistic回归在旅游公司目录销售中的应用
4.11.1商业理解
4.11.2数据理解与数据准备
4.11.3数据建模
4.11.4部署
4.12本章小结
习题4
第5章聚类分析
5.1聚类分析概述
5.2相似性度量
5.2.1数据及数据类型
5.2.2属性之间的相似性度量
5.2.3对象之间的相似性度量
5.3K—means算法及其改进
5.3.1基本K—means算法
5.3.2二分K—means算法
5.3.3K—means算法的拓展
5.4一趟聚类算法
5.4.1算法描述
5.4.2一趟聚类阈值的选择策略
5.5两步聚类算法
5.5.1构建CF树
5.5.2两步聚类的“亲疏程度”度量
5.5.3簇数目的确定
5.6聚类算法评价
5.6.1确定簇数
5.6.2测定聚类质量
5.7Clementine中相关节点介绍
5.7.1K—means聚类节点
5.7.2Two—step聚类节点
5.7.3Khonen聚类节点
5.8案例5—1:电信客户细分与流失分析
5.8.1商业理解
5.8.2数据理解
5.8.3数据准备
5.8.4数据建模
5.8.5结果评估
5.9案例5—2:聚类城镇及在市场营销中的应用
5.9.1创造城镇特征
5.9.2创建簇
5.9.3利用主题簇调整区域边界
5.10本章小结
习题5
第6章关联规则
6.1关联规则挖掘概述
6.2关联规则挖掘的基本概念
6.3Apriori算法
6.3.1Apriori性质
6.3.2频繁项集的产生
6.3.3规则的产生
6.3.4关联规则的评价
6.4关联规则扩展
6.4.1关联规则分类
6.4.2多层次关联规则
6.4.3多维度关联规则
6.4.4定量关联规则
6.4.5基于约束的关联规则
6.4.6序列模式挖掘
6.5Clementine中Apriori节点介绍
6.6案例6—1:移动业务关联分析
6.6.1商业理解
6.6.2数据理解阶段
6.6.3数据准备阶段
6.6.4建模阶段
6.6.5模型评估
6.6.6部署阶段
6.7案例6—2:超市购物篮分析
6.7.1商业理解
6.7.2数据理解
6.7.3数据准备
6.7.4建立模型
6.7.5模型评估和应用
6.8本章小结
习题6
第7章离群点检测
7.1离群点检测概念
7.2基于统计的方法
7.3基于相对密度的离群点检测方法
7.4基于聚类的离群点检测方法
7.4.1基于对象的离群因子检测方法
7.4.2基于簇的离群因子检测方法
7.4.3基于聚类的动态数据离群点检测方法
7.5离群点检测方法的评估
7.6Clementine中的Anomaly节点介绍
7.7案例7—1:离群点检测在癌症诊断中的应用
7.7.1商业理解
7.7.2数据理解
7.7.3数据准备
7.7.4数据建模与评估
7.8案例7—2:离群点检测在网络入侵检测中的应用
7.8.1商业理解
7.8.2数据理解
7.8.3数据准备
7.8.4数据建模与评估
7.9本章小结
习题7
……
下篇数据挖掘提高篇
附录数据挖掘常用资源列表
参考文献