机器学习在线:解析阿里云机器学习平台
出版时间:2017
丛编项: 阿里巴巴集团技术丛书
内容简介
以机器学习中的典型案例为主线,条分缕析梳理阿里云的平台功能,讲解如何用阿里云的机器学习平台来实现各类应用,包括商家作弊检测、生存预测、信用风险预测、用户购买行为预测等,并完整地介绍了机器学习的基本原理与实践技巧。
目录
第1章 阿里云机器学习\t1
1.1 产品特点\t1
1.2 名词解释\t2
1.3 构建机器学习实验\t3
1.3.1 新建实验\t3
1.3.2 使用组件搭建工作流\t4
1.3.3 运行实验、查看结果\t5
1.3.4 模型部署、在线预测\t6
第2章 商家作弊行为检测\t7
2.1 数据探索\t8
2.2 建模、预测和评估\t15
2.3 尝试其他分类模型\t19
2.4 判断商家作弊\t24
第3章 生存预测\t27
3.1 数据集一\t27
3.1.1 特征分析\t28
3.1.2 生存预测\t33
3.2 数据集二\t36
3.2.1 随机森林模型\t39
3.2.2 朴素贝叶斯模型\t47
第4章 信用风险预测\t50
4.1 整体流程\t53
4.1.1 特征哑元化\t54
4.1.2 特征重要性\t57
4.2 模型效果评估\t61
4.3 减少模型特征的个数\t62
第5章 用户购买行为预测\t65
5.1 数据探索\t66
5.2 思路\t68
5.2.1 用户和品牌的各种特征\t69
5.2.2 二分类模型训练\t71
5.3 计算训练数据集\t71
5.3.1 原始数据划分\t72
5.3.2 计算特征\t74
5.3.3 计算标签\t89
5.4 二分类模型训练\t90
5.4.1 正负样本配比\t90
5.4.2 逻辑回归算法\t92
5.4.3 随机森林算法\t94
第6章 聚类与分类\t96
6.1 数据可视化\t97
6.2 K-Means聚类\t98
6.2.1 聚类、评估流程\t100
6.2.2 聚成两类\t101
6.2.3 聚成三类\t103
6.3 K最近邻算法\t104
6.3.1 使用KNN算法进行分类\t105
6.3.2 算法比较\t108
6.4 多分类模型\t109
6.4.1 使用朴素贝叶斯算法\t109
6.4.2 使用逻辑回归多分类算法\t112
6.4.3 使用随机森林算法\t115
6.4.4 各多分类模型效果对比\t118
第7章 葡萄酒品质预测\t119
7.1 数据探索\t120
7.2 线性回归\t123
7.3 GBDT回归\t125
第8章 文本分析\t127
8.1 分词\t128
8.2 词频统计\t130
8.3 单词的区分度\t131
8.4 字符串比较\t133
8.5 抽取关键词、关键句\t139
8.5.1 原理简介\t139
8.5.2 完整流程\t141
8.6 主题模型\t146
8.6.1 LDA模型\t147
8.6.2 新闻的主题模型\t149
8.6.3 数据预处理\t150
8.6.4 主题与原始分类的关系\t153
8.7 单词映射为向量\t160
8.7.1 相近单词\t162
8.7.2 单词聚类\t165
8.8 组件使用小结\t168
第9章 基于用户退货描述的赔付预测\t170
9.1 思路\t171
9.2 训练集的特征生成\t173
9.3 测试集的特征生成\t180
9.4 模型训练、预测、评估\t181
9.5 提高召回率\t185
第10章 情感分析\t189
10.1 词袋模型\t190
10.1.1 训练集的特征生成\t192
10.1.2 测试集的特征生成\t196
10.1.3 模型训练、预测、评估\t197
10.2 词向量模型\t200
10.2.1 特征生成\t201
10.2.2 模型训练\t206
第11章 影片推荐\t211
11.1 协同过滤\t212
11.2 整体流程\t213
11.3 预处理,过滤出好评信息\t215
11.4 计算影片间的相似度\t215
11.5 计算用户可能喜欢的影片\t221
11.6 查看推荐效果\t224
第12章 支持深度学习框架\t227
12.1 TensorFlow组件简介\t227
12.2 Softmax模型\t231
12.3 深度神经网络\t234
附录A\t237