拥抱大数据:新常态下的数据分析典型案例
作 者: 李倩星,王震 著
出版时间: 2015
内容简介
《拥抱大数据(新常态下的数 据分析典型案例)》首先介绍了大数据的由来与数据 分析师职业的前景,概述了大数据的特点及其分析方 法,引发读者对数据分析师的向往。然后介绍了如今流行的近三十种大数据算法,每种算法都附有一个 成功的商业案例,通过案例深入分析每种算法的长处 、缺点、适用范围等,使读者不仅知其然,知其所以然。该书比介绍大数据类的书籍具有更多的理论知识 ,比各种算法的教科书含有更多的实际应用,是两者的巧妙过渡,适合对大数据有一定了解的读者,可以 帮助读者在短时间内深入学习大数据分析的算法体系 ,并进一步帮助读者挑选需要精学的、适合自己的算法。
目录
第一章 为什么市场需要数据分析师
1.1 大数据的前世今生
1.2 大数据的具体定义
1.3 数据分析行业现状及巨大缺口
第二章 什么是数据分析师
2.1 明确两个概念
2.2 从四份招聘简历说起
2.2.1 第一份招聘简历要求
2.2.2 第二份招聘简历要求
2.2.3 第三份招聘简历要求
2.2.4 第四份招聘简历要求
2.3 数据分析师常见专业出身
2.3.1 数学与应用数学、统计学专业
2.3.2 经济管理类专业
2.3.3 计算机理论类专业
2.3.4 计算机应用类专业
2.3.5 其他专业
2.4 数据分析师可从事行业
2.4.1 互联网行业
2.4.2 制造行业
2.4.3 投资分析行业
2.4.4 咨询行业
2.4.5 其他类公司综述
第三章 如何成为数据分析师
3.1 数据分析师基础知识储备
3.1.1 基础统计知识
3.1.2 基础的数据库知识
3.1.3 Office办公软件和专业数据分析工具
3.1.4 基础算法编程知识
3.1.5 业务知识
3.1.6 一些数据分析经验
3.1.7 小结
3.2 数据分析师常用工具盘点
3.2.1 Excel
3.2.2 SPSS
3.2.3 STATA
3.2.4 Eviews
3.2.5 SAS
3.2.6 Matlab
3.2.7 R
3.2.8 小结
3.3 数据分析师应该学习的网络课程
3.3.1 M00C类课程
3.3.2 网上学习平台
3.3.3 现场培训班
第四章 描述性统计分析
4.1 频数分布分析:用统计图解决伦敦霍乱
4.1.1 可怕的英国霍乱
4.1.2 约翰医生的实地调查
4.1.3 对伦敦霍乱平息过程的分析
4.1.4 频数分布分析总结
4.2 关注数据代表性:统计学家改良轰炸机
4.2.1 “二战”盟国轰炸德国伤亡惨重
4.2.2 轰炸机的返航率得到提高
4.2.3 对轰炸机改进过程的分析
4.2.4 数据代表性总结
4.3 异常值分析:1号店提升营销精准率
4.3.1 1号店的数据分析案例
4.3.2 1号店数据分析过程
4.3.3 异常值分析总结
4.4 对比分析:刻画豆瓣变现具体压力
4.4.1 豆瓣变现的难题
4.4.2 豆瓣变现的具体压力
4.4.3 对比分析总结
4.5 描述性统计分析概述:淘宝箱店类目分析
4.5.1 淘宝箱店类目背景
4.5.2 箱店类目分析实解
4.5.3 描述性统计分析小结
第五章 相关分析与回归分析
5.1 相关分析与回归分析基础-
5.2 矩阵分解:价值百万美元的Net6lx推荐系统
5.2.1 Netnlx为推荐系统悬赏百万美元
5.2.2 构建一个推荐系统
5.2.3 矩阵分解小结
5.3 一元线性回归:引发金融危机的风险价值模型
5.3.1 广受欢迎的风险价值模型
5.3.2 评估一个理财产品的风险
5.3.3 一元线性回归小结:
5.4 评分系统:星巴克选址借力大数据
5.4.1 越来越难以选择的快餐店地址
5.4.2 多元线性回归与评分系统
5.4.3 评分系统小结-
5.5 相关分析与回归分析概述:奥巴马使用大数据赢得大选
5.5.1 神奇的Survey Manager系统
5.5.2 美国大选详细解读
5.5.3 相关分析与回归分析总结
第六章 关联分析与聚类分析
6.1 关联分析与聚类分析基础
6.2 购物篮分析:啤酒与尿布的经典案例
6.2.1 沃尔玛超市里的啤酒与尿布
6.2.2 购物篮分析案例实解
6.2.3 购物篮分析小结
6.3 序列模式挖掘:Web访问模式帮助电商优化网站
6.3.1 我们为什么需要序列模式挖掘
6.3.2 Web访问模式与优化网站
6.3.3 序列模式挖掘小结
6.4 快速聚类:大数据捧火《纸牌屋》
6.4.1 大数据助Netfilx赌赢《纸牌屋》
6.4.2 透视《纸牌屋》背后的大数据算法
6.4.3 快速聚类小结
6.5 层次聚类:人人网好友推荐的奥秘
6.5.1 无处不在的好友推荐
6.5.2 朴素的人人网好友推荐算法
6.5.3 层次聚类与好友推荐小结
6.6 关联分析与聚类分析综述:加州极客的聚类分析把妹法
6.6.1 使用大数据寻找另一半
6.6.2 分成七类的潜在女朋友
6.6.3 关联分析与聚类分析小结
第七章 决策树与模式识别
7.1 C4.5算法:电信客户流失预测
7.1.1 电信客户的流失与预测
7.1.2 使用信息熵建立决策树模型
7.1.3 为一个决策树剪枝并解释其规则
7.1.4 决策树小结
7.2 RBF神经网络:“房价网”的二手房价格评估
7.2.1 二手房价格评估的局限性
7.2.2 RBF神经网络的构建与解释
7.2.3 RBF神经网络小结
7.3 贝叶斯分析:神奇的谷歌智能翻译
7.3.1 世界第一的谷歌翻译
7.3.2 贝叶斯分析和智能翻译应用
7.3.3 贝叶斯分析小结
7.4 支持向量机:应用广泛的手写识别与语音识别
7.4.1 从阿里巴巴说起的模式识别
7.4.2 解决了高维诅咒的支持向量机
7.4.3 支持向量机小结
7.5 判别分析:肯德基通过客户分类大幅提高营业额
7.5.1 难以复制的肯德基APP营销模式
7.5.2 用于分类的线性判别分析
7.5.3 判别分析小结
7.6 模式识别综述:日趋成熟的信用评分模型
7.6.1 美国为限制信用评分模型立法
7.6.2 用多种算法实现信用评分模型
7.6.3 模式识别小结
第八章 更多的数据挖掘算法
8.1 核密度估计法:警务大数据预测犯罪
8.1.1 《少数派报告》的现实版
8.1.2 核密度估计法和圣克鲁兹市的犯罪地图
8.1.3 核密度估计法小结
8.2 Flu Trends:谷歌流感趋势算法帮助控制疫情
8.2.1 谷歌流感趋势算法的成与败
8.2.2 谷歌流感趋势算法与流感关联词
8.2.3 以F1u Trends为代表的预测算法小结
8.3 Apriori算法:透视美国国会投票模式
8.3.1 以立法者自居的美国国会议员
8.3.2 Apriori算法和关联分析
8.3.3 国会投票模式小结
8.4 SVD简化数据:IBM软件自动生成新菜谱
8.4.1 IBM推出可生成无限食谱的APP
8.4.2 SVD简化数据与综合计算
8.4.3 创新菜谱软件小结
8.5 大数据预测算法盘点:百度预测世界杯成功率81.8%
8.5.1 群英荟萃的绿茵场
8.5.2 大数据预测算法模型大盘点
8.5.3 大数据预测算法小结
8.6 网络理论分析:西班牙球队的控球哲学
8.6.1 独树一帜的西班牙球队控球哲学
8.6.2 以网络理论分析为基础的聚类分析
8.6.3 网络理论分析小结