数据挖掘与数据化运营实战:思路、方法、技巧与应用
作者:卢辉
出版时间:2013年版
内容简介
《数据挖掘与数据化运营实战:思路、方法、技巧与应用》是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。《数据挖掘与数据化运营实战:思路、方法、技巧与应用》共19章,分为三个部分:基础篇(第1~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~13章)主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示;思想意识篇(第5章,第14~19章)主要是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。
目 录
推荐序
前言
第1章 什么是数据化运营 / 1
1.1 现代营销理论的发展历程 / 2
1.1.1 从4P到4C / 2
1.1.2 从4C到3P3C / 3
1.2 数据化运营的主要内容 / 5
1.3 为什么要数据化运营 / 7
1.4 数据化运营的必要条件 / 8
1.4.1 企业级海量数据存储的实现 / 8
1.4.2 精细化运营的需求 / 10
1.4.3 数据分析和数据挖掘技术的有效应用 / 11
1.4.4 企业决策层的倡导与持续支持 / 11
1.5 数据化运营的新现象与新发展 / 12
1.6 关于互联网和电子商务的最新数据 / 14
第2章 数据挖掘概述 / 15
2.1 数据挖掘的发展历史 / 16
2.2 统计分析与数据挖掘的主要区别 / 16
2.3 数据挖掘的主要成熟技术以及在数据化运营中的主要应用 / 18
2.3.1 决策树 / 18
2.3.2 神经网络 / 19
2.3.3 回归 / 21
2.3.4 关联规则 / 22
2.3.5 聚类 / 23
2.3.6 贝叶斯分类方法 / 24
2.3.7 支持向量机 / 25
2.3.8 主成分分析 / 26
2.3.9 假设检验 / 27
2.4 互联网行业数据挖掘应用的特点 / 28
第3章 数据化运营中常见的数据分析项目类型 / 30
3.1 目标客户的特征分析 / 31
3.2 目标客户的预测(响应、分类)模型 / 32
3.3 运营群体的活跃度定义 / 33
3.4 用户路径分析 / 34
3.5 交叉销售模型 / 35
3.6 信息质量模型 / 37
3.7 服务保障模型 / 39
3.8 用户(买家、卖家)分层模型 / 40
3.9 卖家(买家)交易模型 / 44
3.10 信用风险模型 / 44
3.11 商品推荐模型 / 45
3.11.1 商品推荐介绍 / 45
3.11.2 关联规则 / 45
3.11.3 协同过滤算法 / 50
3.11.4 商品推荐模型总结 / 54
3.12 数据产品 / 55
3.13 决策支持 / 56
第4章 数据化运营是跨专业、跨团队的协调与合作 / 57
4.1 数据分析团队与业务团队的分工和定位 / 58
4.1.1 提出业务分析需求并且能胜任基本的数据分析 / 58
4.1.2 提供业务经验和参考建议 / 60
4.1.3 策划和执行精细化运营方案 / 60
4.1.4 跟踪运营效果、反馈和总结 / 61
4.2 数据化运营是真正的多团队、多专业的协同作业 / 62
4.3 实例示范数据化运营中的跨专业、跨团队协调合作 / 62
第5章 分析师常见的错误观念和对治的管理策略 / 67
5.1 轻视业务论 / 68
5.2 技术万能论 / 69
5.3 技术尖端论 / 71
5.4 建模与应用两段论 / 72
5.5 机器万能论 / 73
5.6 幸福的家庭都是相似的,不幸的家庭各有各的不幸 / 74
第6章 数据挖掘项目完整应用案例演示 / 76
6.1 项目背景和业务分析需求的提出 / 77
6.2 数据分析师参与需求讨论 / 78
6.3 制定需求分析框架和分析计划 / 79
6.4 抽取样本数据、熟悉数据、数据清洗和摸底 / 81
6.5 按计划初步搭建挖掘模型 / 81
6.6 与业务方讨论模型的初步结论,提出新的思路和模型优化方案 / 83
6.7 按优化方案重新抽取样本并建模,提炼结论并验证模型 / 84
6.8 完成分析报告和落地应用建议 / 86
6.9 制定具体的落地应用方案和评估方案 / 86
6.10 业务方实施落地应用方案并跟踪、评估效果 / 86
6.11 落地应用方案在实际效果评估后,不断修正完善 / 88
6.12 不同运营方案的评估、总结和反馈 / 88
6.13 项目应用后的总结和反思 / 89
第7章 数据挖掘建模的优化和限度 / 90
7.1 数据挖掘模型的优化要遵循有效、适度的原则 / 91
7.2 如何有效地优化模型 / 92
7.2.1 从业务思路上优化 / 92
7.2.2 从建模的技术思路上优化 / 94
7.2.3 从建模的技术技巧上优化 / 95
7.3 如何思考优化的限度 / 96
7.4 模型效果评价的主要指标体系 / 96
7.4.1 评价模型准确度和精度的系列指标 / 97
7.4.2 ROC曲线 / 99
7.4.3 KS值 / 100
7.4.4 Lift值 / 102
7.4.5 模型稳定性的评估 / 104
第8章 常见的数据处理技巧 / 105
8.1 数据的抽取要正确反映业务需求 / 106
8.2 数据抽样 / 107
8.3 分析数据的规模有哪些具体的要求 / 108
8.4 如何处理缺失值和异常值 / 109
8.4.1 缺失值的常见处理方法 / 109
8.4.2 异常值的判断和处理 / 111
8.5 数据转换 / 112
8.5.1 生成衍生变量 / 113
8.5.2 改善变量分布的转换 / 113
8.5.3 分箱转换 / 114
8.5.4 数据的标准化 / 115
8.6 筛选有效的输入变量 / 115
8.6.1 为什么要筛选有效的输入变量 / 116
8.6.2 结合业务经验进行先行筛选 / 116
8.6.3 用线性相关性指标进行初步筛选 / 117
8.6.4 R平方 / 118
8.6.5 卡方检验 / 119
8.6.6 IV和WOE / 120
8.6.7 部分建模算法自身的筛选功能 / 121
8.6.8 降维的方法 / 122
8.6.9 最后的准则 / 122
8.7 共线性问题 / 123
8.7.1 如何发现共线性 / 123
8.7.2 如何处理共线性 / 123
第9章 聚类分析的典型应用和技术小窍门 / 125
9.1 聚类分析的典型应用场景 / 126
9.2 主要聚类算法的分类 / 127
9.2.1 划分方法 / 127
9.2.2 层次方法 / 128
9.2.3 基于密度的方法 / 128
9.2.4 基于网格的方法 / 129
9.3 聚类分析在实践应用中的重点注意事项 / 129
9.3.1 如何处理数据噪声和异常值 / 129
9.3.2 数据标准化 / 130
9.3.3 聚类变量的少而精 / 131
9.4 聚类分析的扩展应用 / 132
9.4.1 聚类的核心指标与非聚类的业务指标相辅相成 / 132
9.4.2 数据的探索和清理工具 / 132
9.4.3 个性化推荐的应用 / 133
9.5 聚类分析在实际应用中的优势和缺点 / 134
9.6 聚类分析结果的评价体系和评价指标 / 135
9.6.1 业务专家的评估 / 135
9.6.2 聚类技术上的评价指标 / 136
9.7 一个典型的聚类分析课题的案例分享 / 137
9.7.1 案例背景 / 137
9.7.2 基本的数据摸底 / 137
9.7.3 基于用户样本的聚类分析的初步结论 / 138
第10章 预测响应(分类)模型的典型应用和技术小窍门 / 140
10.1 神经网络技术的实践应用和注意事项 / 141
10.1.1 神经网络的原理和核心要素 / 141
10.1.2 神经网络的应用优势 / 143
10.1.3 神经网络技术的缺点和注意事项 / 143
10.2 决策树技术的实践应用和注意事项 / 144
10.2.1 决策树的原理和核心要素 / 144
10.2.2 CHAID算法 / 145
10.2.3 CART算法 / 145
10.2.4 ID3算法 / 146
10.2.5 决策树的应用优势 / 146
10.2.6 决策树的缺点和注意事项 / 147
10.3 逻辑回归技术的实践应用和注意事项 / 148
10.3.1 逻辑回归的原理和核心要素 / 148
10.3.2 回归中的变量筛选方法 / 150
10.3.3 逻辑回归的应用优势 / 151
10.3.4 逻辑回归应用中的注意事项 / 151
10.4 多元线性回归技术的实践应用和注意事项 / 152
10.4.1 线性回归的原理和核心要素 / 152
10.4.2 线性回归的应用优势 / 153
10.4.3 线性回归应用中的注意事项 / 153
10.5 模型的过拟合及对策 / 154
10.6 一个典型的预测响应模型的案例分享 / 156
10.6.1 案例背景 / 156
10.6.2 基本的数据摸底 / 156
10.6.3 建模数据的抽取和清洗 / 158
10.6.4 初步的相关性检验和共线性排查 / 159
10.6.5 潜在自变量的分布转换 / 160
10.6.6 自变量的筛选 / 161
10.6.7 响应模型的搭建与优化 / 162
10.6.8 冠军模型的确定和主要的分析结论 / 162
10.6.9 基于模型和分析结论基础上的运营方案 / 164
10.6.10 模型落地应用效果跟踪反馈 / 165
第11章 用户特征分析的典型应用和技术小窍门 / 166
11.1 用户特征分析所适用的典型业务场景 / 167
11.1.1 寻找目标用户 / 167
11.1.2 寻找运营的抓手 / 168
11.1.3 用户群体细分的依据 / 169
11.1.4 新品开发的线索和依据 / 169
11.2 用户特征分析的典型分析思路和分析技术 / 170
11.2.1 3种划分的区别 / 170
11.2.2 RFM / 171
11.2.3 聚类技术的应用 / 172
11.2.4 决策树技术的应用 / 173
11.2.5 预测(响应)模型中的核心自变量 / 173
11.2.6 假设检验的应用 / 174
11.3 特征提炼后的评价体系 / 174
11.4 用户特征分析与用户预测模型的区别和联系 / 175
11.5 用户特征分析案例 / 176
第12章 运营效果分析的典型应用和技术小窍门 / 177
12.1 为什么要做运营效果分析 / 178
12.2 统计技术在数据化运营中最重要最常见的应用 / 179
12.2.1 为什么要进行假设检验 / 179
12.2.2 假设检验的基本思想 / 179
12.2.3 T检验概述 / 180
12.2.4 两组独立样本T检验的假设和检验 / 181
12.2.5 两组独立样本的非参数检验 / 182
12.2.6 配对差值的T检验 / 183
12.2.7 配对差值的非参数检验 / 184
12.2.8 方差分析概述 / 186
12.2.9 单因素方差分析 / 187
12.2.10 多个样本组的非参数检验 / 190
12.2.11 卡方检验 / 190
12.2.12 控制变量的方法 / 191
12.2.13 AB Test / 192
第13章 漏斗模型和路径分析 / 193
13.1 网络日志和布点 / 194
13.1.1 日志布点 / 195
13.1.2 日志采集 / 195
13.1.3 日志解析 / 195
13.1.4 日志分析 / 195
13.2 漏斗模型与路径分析的主要区别和联系 / 196
13.3 漏斗模型的主要应用场景 / 197
13.3.1 运营过程的监控和运营效率的分析与改善 / 197
13.3.2 用户关键路径分析 / 198
13.3.3 产品优化 / 198
13.4 路径分析的主要应用场景 / 198
13.5 路径分析的主要算法 / 199
13.5.1 社会网络分析方法 / 199
13.5.2 基于序列的关联分析 / 200
13.5.3 最朴素的遍历方法 / 201
13.6 路径分析案例的分享 / 203
13.6.1 案例背景 / 203
13.6.2 主要的分析技术介绍 / 203
13.6.3 分析所用的数据概况 / 203
13.6.4 主要的数据结论和业务解说 / 203
13.6.5 主要分析结论的落地应用跟踪 / 206
第14章 数据分析师对业务团队数据分析能力的培养 / 208
14.1 培养业务团队数据分析意识与能力的重要性 / 209
14.2 数据分析师在业务团队数据分析意识能力培养中的作用 / 210
14.3 数据分析师如何培养业务团队的数据分析意识和能力 / 210
14.4 数据分析师培养业务团队数据分析意识能力的案例分享 / 212
14.4.1 案例背景 / 212
14.4.2 过程描述 / 212
14.4.3 本项目的效果跟踪 / 214
第15章 换位思考 / 216
15.1 为什么要换位思考 / 217
15.2 从业务方的角度换位思考数据分析与挖掘 / 218
15.3 从同行的角度换位思考数据分析挖掘的经验教训 / 220
第16章 养成数据分析师的品质和思维模式 / 222
16.1 态度决定一切 / 223
16.1.1 信念 / 223
16.1.2 信心 / 224
16.1.3 热情 / 225
16.1.4 敬畏 / 226
16.1.5 感恩 / 227
16.2 商业意识是核心 / 228
16.2.1 为什么商业意识是核心 / 228
16.2.2 如何培养商业意识 / 229
16.3 一个基本的方法论 / 230
16.4 大胆假设,小心求证 / 231
16.5 20/80原理 / 233
16.6 结构化思维 / 233
16.7 优秀的数据分析师既要客观,又要主观 / 234
第17章 条条大道通罗马 / 236
17.1 为什么会条条大道通罗马 / 237
17.2 条条大道有侧重 / 238
17.3 自觉服从和积极响应 / 239
17.3.1 自觉服从 / 239
17.3.2 积极响应 / 240
17.4 具体示例 / 242
第18章 数据挖掘实践的质量保障流程和制度 / 243
18.1 一个有效的质量保障流程制度 / 244
18.1.1 业务需求的收集 / 245
18.1.2 评估小组评估需求的优先级 / 246
18.1.3 课题组的成立及前期摸底 / 247
18.1.4 向业务方提交正式课题(项目)计划书 / 247
18.1.5 数据分析挖掘的课题展开 / 248
18.1.6 向业务方提交结论报告及业务落地应用建议 / 248
18.1.7 课题(项目)的落地应用和效果监控反馈 / 248
18.2 质量保障流程制度的重要性 / 249
18.3 如何支持与强化质量保障流程制度 / 250
第19章 几个经典的数据挖掘方法论 / 251
19.1 SEMMA方法论 / 252
19.1.1 数据取样 / 253
19.1.2 数据探索 / 253
19.1.3 数据调整 / 253
19.1.4 模式化 / 254
19.1.5 评价 / 254
19.2 CRISP-DM方法论 / 254
19.2.1 业务理解 / 255
19.2.2 数据理解 / 256
19.2.3 数据准备 / 256
19.2.4 模型搭建 / 256
19.2.5 模型评估 / 256
19.2.6 模型发布 / 256
19.3 Tom Khabaza的挖掘9律 / 256