R语言数据分析与挖掘
作者:杜宾等编著
出版时间:2019年版
内容简介
本书将抽象的理论和实际应用紧密结合起来,既重视基本原理、基本概念和方法的阐述,更注重网络管理的各种具体实现技术,同时力图反映网络管理技术的新发展。
目录
第一部分 统计分析基础
第1章 概述1
1.1 为什么使用R语言2
1.2 R的安装 3
1.3 RStudio集成环境 4
1.4 R的基础操作 4
1.5包 9
1.6 结果的重用性 10
1.7 综合示例 11
1.8 大数据处理 11
1.9 数据挖掘 13
小结 16
习题 16
第2章 数据访问 17
2.1数据集合 17
2.2数据结构 18
2.3数据的输入 27
2.4数据的输出 35
2.5数据集的标注 36
2.6处理数据对象的实用函数36
小结 37
习题 37
第3章 数据操作 39
3.1一个示例 39
3.2创建新变量 41
3.3变量的重编码 42
3.4变量的重命名 43
3.5缺失值 44
3.6日期型数据 46
3.7类型转换 48
3.8数据排序 49
3.9数据集的合并 49
3.10数据集取子集 50
3.11使用SQL 语句操作数据框53
3.12一个数据处理难题 53
3.13数值和字符处理函数 54
3.14数据处理难题的一套解决方案61
3.15控制语句 66
3.16自定义函数 68
3.17重构与整合 70
小结 73
习题 73
第4章 数据可视化 75
4.1创建图形 75
4.2简单示例 77
4.3图形参数 78
4.4添加文本、自定义坐标轴和图例83
4.5图形的组合 89
4.6条形图 93
4.7饼图 97
4.8直方图 99
4.9核密度图 100
4.10点图 105
4.11 ggplot2包 107
小结 116
习题 116
第5章 概率与分布 117
5.1随机抽样 117
5.2概率分布 118
5.3R的概率分布 122
5.4常用分布的概率函数图124
5.5中心极限定理及应用 127
小结 132
习题 132
第6章 基本统计分析 133
6.1描述性统计分析 133
6.2频数表和列联表 139
6.3相关系数 148
6.4检验 152
6.5组间差异的非参数检验154
小结 157
习题 157
第7章 回归分析 159
7.1概论 160
7.2 OLS 回归 161
7.3回归诊断 170
7.4异常观测值 179
7.5改进方法 182
7.6选择“最佳”的回归模型184
7.7深度分析 188
小结 192
习题 192
第8章 方差分析 195
8.1 基本概念 195
8.2 ANOVA 模型拟合 196
8.3 单因素方差分析 198
8.4单因素协方差分析 202
8.5双因素方差分析 206
8.6重复测量方差分析 208
8.7多元方差分析 210
8.8回归实现ANOVA 214
小结 216
习题 216
第二部分 机器学习实践
第9章 大数据高性能计算 218
9.1数据选择 219
9.2数据聚合 223
9.3数据引用 225
9.4键与快速筛选 228
9.5数据连接 231
9.6数据变形 236
小结 238
习题 238
第10章 机器学习流程 239
10.1数据探索 240
10.2数据划分 241
10.3数据填充 242
10.4特征选择 246
10.5建模与调优 251
10.6测试与评估 257
小结 260
习题 260
第11章 有监督学习模型 261
11.1线性回归模型 263
11.2逻辑回归模型 269
11.3线性判别分析模型 275
11.4朴素贝叶斯模型 275
11.5k近邻模型 275
11.6决策树模型 284
11.7随机森林模型 299
11.8神经网络模型 309
11.9支持向量机模型 319
小结 330
习题 330
第12章 无监督学习模型 331
12.1 k均值聚类模型 333
12.2 DBSCAN聚类模型 341
12.3 AGNES层次聚类模型 346
12.4关联分析模型 351
小结 357
习题 357
参考文献 358