R语言数据分析与挖掘实战
作者:张良均,云伟标,王路 著
出版时间:2015年版
内容简介
本书共16章,分三个部分:基础篇、实战篇、提高篇。基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据挖掘理论。读者在阅读过程中,应充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过上机实验,以快速理解相关知识与理论。高级篇介绍了基于R语言二次开发的数据挖掘应用软件,使读者体验到数据挖掘二次的开发的魅力。
目录
前 言
基 础 篇
第1章 数据挖掘基础2
1.1 某知名连锁餐饮企业的困惑2
1.2 从餐饮服务到数据挖掘3
1.3 数据挖掘的基本任务4
1.4 数据挖掘建模过程4
1.4.1 定义挖掘目标4
1.4.2 数据取样5
1.4.3 数据探索6
1.4.4 数据预处理7
1.4.5 挖掘建模7
1.4.6 模型评价7
1.5 常用数据挖掘建模工具7
1.6 小结9
第2章 R语言简介10
2.1 R安装10
2.2 R使用入门11
2.2.1 R操作界面11
2.2.2 RStudio窗口介绍12
2.2.3 R常用操作13
2.3 R数据分析包16
2.4 配套附件使用设置18
2.5 小结18
第3章 数据探索19
3.1 数据质量分析19
3.1.1 缺失值分析20
3.1.2 异常值分析20
3.1.3 一致性分析22
3.2 数据特征分析23
3.2.1 分布分析23
3.2.2 对比分析25
3.2.3 统计量分析27
3.2.4 周期性分析29
3.2.5 贡献度分析30
3.2.6 相关性分析31
3.3 R语言主要数据探索函数35
3.3.1 统计特征函数35
3.3.2 统计作图函数37
3.4 小结40
第4章 数据预处理41
4.1 数据清洗42
4.1.1 缺失值处理42
4.1.2 异常值处理45
4.2 数据集成45
4.2.1 实体识别46
4.2.2 冗余属性识别46
4.3 数据变换46
4.3.1 简单函数变换46
4.3.2 规范化47
4.3.3 连续属性离散化48
4.3.4 属性构造51
4.3.5 小波变换52
4.4 数据规约55
4.4.1 属性规约55
4.4.2 数值规约58
4.5 R语言主要数据预处理函数61
4.6 小结65
第5章 挖掘建模66
5.1 分类与预测66
5.1.1 实现过程66
5.1.2 常用的分类与预测算法67
5.1.3 回归分析68
5.1.4 决策树73
5.1.5 人工神经网络79
5.1.6 分类与预测算法评价83
5.1.7 R语言主要分类与预测算法函数87
5.2 聚类分析89
5.2.1 常用聚类分析算法89
5.2.2 K-Means聚类算法90
5.2.3 聚类分析算法评价95
5.2.4 R语言主要聚类分析算法函数95
5.3 关联规则97
5.3.1 常用关联规则算法97
5.3.2 Apriori算法98
5.4 时序模式102
5.4.1 时间序列算法103
5.4.2 时间序列的预处理104
5.4.3 平稳时间序列分析105
5.4.4 非平稳时间序列分析107
5.4.5 R语言主要时序模式算法函数114
5.5 离群点检测116
5.5.1 离群点检测方法117
5.5.2 基于模型的离群点检测方法118
5.5.3 基于聚类的离群点检测方法120
5.6 小结122
实 战 篇
第6章 电力窃漏电用户自动识别126
6.1 背景与挖掘目标126
6.2 分析方法与过程129
6.2.1 数据抽取130
6.2.2 数据探索分析130
6.2.3 数据预处理133
6.2.4 构建专家样本137
6.2.5 模型构建138
6.3 上机实验143
6.4 拓展思考144
6.5 小结144
第7章 航空公司客户价值分析145
7.1 背景与挖掘目标145
7.2 分析方法与过程146
7.2.1 数据抽取149
7.2.2 数据探索分析149
7.2.3 数据预处理150
7.2.4 模型构建153
7.3 上机实验158
7.4 拓展思考159
7.5 小结159
第8章 中医证型关联规则挖掘160
8.1 背景与挖掘目标160
8.2 分析方法与过程162
8.2.1 数据获取163
8.2.2 数据预处理165
8.2.3 模型构建169
8.3 上机实验171
8.4 拓展思考172
8.5 小结172
第9章 基于水色图像的水质评价173
9.1 背景与挖掘目标173
9.2 分析方法与过程174
9.2.1 数据预处理175
9.2.2 模型构建177
9.2.3 水质评价179
9.3 上机实验180
9.4 拓展思考180
9.5 小结181
第10章 家用电器用户行为分析与事件识别182
10.1 背景与挖掘目标182
10.2 分析方法与过程183
10.2.1 数据抽取184
10.2.2 数据探索分析185
10.2.3 数据预处理185
10.2.4 模型构建195
10.2.5 模型检验198
10.3 上机实验200
10.4 拓展思考201
10.5 小结202
第11章 应用系统负载分析与磁盘容量预测203
11.1 背景与挖掘目标203
11.2 分析方法与过程205
11.2.1 数据抽取206
11.2.2 数据探索分析206
11.2.3 数据预处理207
11.2.4 模型构建208
11.3 上机实验213
11.4 拓展思考214
11.5 小结215
第12章 电子商务智能推荐服务216
12.1 背景与挖掘目标216
12.2 分析方法与过程222
12.2.1 数据抽取224
12.2.2 数据探索分析225
12.2.3 数据预处理230
12.2.4 模型构建235
12.3 上机实验245
12.4 拓展思考246
12.5 小结251
第13章 基于数据挖掘技术的市财政收入分析预测模型252
13.1 背景与挖掘目标252
13.2 分析方法与过程254
13.2.1 灰色预测与神经网络的组合模型255
13.2.2 数据探索分析256
13.2.3 模型构建259
13.3 上机实验273
13.4 拓展思考273
13.5 小结274
第14章 基于基站定位数据的商圈分析275
14.1 背景与挖掘目标275
14.2 分析方法与过程277
14.2.1 数据抽取277
14.2.2 数据探索分析278
14.2.3 数据预处理279
14.2.4 模型构建282
14.3 上机实验286
14.4 拓展思考286
14.5 小结287
第15章 电商产品评论数据情感分析288
15.1 背景与挖掘目标288
15.2 分析方法与过程288
15.2.1 评论数据采集289
15.2.2 评论预处理292
15.2.3 文本评论分词297
15.2.4 模型构建298
15.3 上机实验312
15.4 拓展思考313
15.5 小结314
提 高 篇
第16章 基于R语言的数据挖掘二次开发316
16.1 混合编程应用体验——TipDM数据挖掘平台316
16.2 二次开发过程环境配置320
16.3 R语言数据挖掘二次开发实例322
16.4 小结325
参考资料326