欢迎访问学兔兔,学习、交流 分享 !

返回首页 |

Python数据分析从入门到精通 明日科技 编著 2021年版

收藏
  • 大小:73.83 MB
  • 语言:中文版
  • 格式: PDF文档
  • 阅读软件: Adobe Reader
资源简介
Python数据分析从入门到精通
作者: 明日科技 编著
出版时间: 2021年版
内容简介
  《Python数据分析从入门到精通》全面介绍了使用Python进行数据分析所必需的各项知识。全书共分为14章,包括了解数据分析、搭建Python数据分析环境、Pandas统计分析、Matplotlib可视化数据分析图表、Seaborn可视化数据分析图表、第三方可视化数据分析图表Pyecharts、图解数组计算模块NumPy、数据统计分析案例、机器学习库Scikit-Learn、注册用户分析(MySQL版)、电商销售数据分析与预测、二手房房价分析与预测,以及客户价值分析。
目录
第1篇 基础篇
第1章 了解数据分析 2
1.1 什么是数据分析 2
1.2 数据分析的重要性 2
1.3 数据分析的基本流程 4
1.3.1 熟悉工具 4
1.3.2 明确目的 5
1.3.3 获取数据 5
1.3.4 数据处理 5
1.3.5 数据分析 6
1.3.6 验证结果 6
1.3.7 结果呈现 6
1.3.8 数据应用 7
1.4 数据分析常用工具 7
1.4.1 Excel工具 7
1.4.2 Python语言 7
1.5 小结 8
第2章 搭建Python数据分析环境 9
2.1 Python概述 9
2.1.1 Python简介 9
2.1.2 Python的版本 10
2.2 搭建Python开发环境 10
2.2.1 什么是IDLE 10
2.2.2 安装Python 10
2.2.3 使用IDLE编写“Hello World” 14
2.2.4 配置环境变量—解决“'python'不是内部或外部命令” 16
2.3 集成开发环境PyCharm 18
2.3.1 下载PyCharm 18
2.3.2 安装PyCharm 20
2.3.3 运行PyCharm 21
2.3.4 创建工程目录 22
2.3.5 个Python程序“Hello World” 24
2.4 数据分析标准环境Anaconda 26
2.4.1 为什么安装Anaconda 27
2.4.2 下载Anaconda 27
2.4.3 安装Anaconda 29
2.5 Jupyter Notebook开发工具 31
2.5.1 认识Jupyter Notebook 31
2.5.2 新建一个Jupyter Notebook文件 32
2.5.3 在Jupyter Notebook中编写“Hello World” 32
2.6 Spyder开发工具 34
2.6.1 初识Spyder 34
2.6.2 创建项目 35
2.6.3 新建/重命名.py文件 36
2.6.4 创建个程序—月销量分析 37
2.6.5 设置图表显示方式 37
2.6.6 在Spyder中安装和卸载第三方库 38
2.7 开发工具比较与代码共用 39
2.7.1 开发工具比较 39
2.7.2 代码共用 40
2.8 小结 44
第2篇 实践篇
第3章 Pandas统计分析(上) 46
3.1 初识Pandas 46
3.1.1 Pandas概述 46
3.1.2 安装Pandas 47
3.1.3 小试牛刀—轻松导入Excel数据 49
3.2 Series对象 50
3.2.1 图解Series对象 50
3.2.2 创建一个Series对象 51
3.2.3 手动设置Series索引 52
3.2.4 Series的索引 52
3.2.5 获取Series索引和值 54
3.3 DataFrame对象 54
3.3.1 图解DataFrame对象 54
3.3.2 创建一个DataFrame对象 55
3.3.3 DataFrame重要属性和函数 57
3.4 导入外部数据 58
3.4.1 导入.xls或.xlsx文件 58
3.4.2 导入.csv文件 63
3.4.3 导入.txt文本文件 64
3.4.4 导入HTML网页 65
3.5 数据抽取 67
3.5.1 抽取一行数据 67
3.5.2 抽取多行数据 68
3.5.3 抽取指定列数据 69
3.5.4 抽取指定行、列数据 70
3.5.5 按指定条件抽取数据 71
3.6 数据的增加、修改和删除 72
3.6.1 增加数据 72
3.6.2 修改数据 75
3.6.3 删除数据 77
3.7 数据清洗 78
3.7.1 缺失值查看与处理 78
3.7.2 重复值处理 81
3.7.3 异常值的检测与处理 82
3.8 索引设置 83
3.8.1 索引的作用 83
3.8.2 重新设置索引 83
3.8.3 设置某列为行索引 85
3.8.4 数据清洗后重新设置连续的行索引 86
3.9 数据排序与排名 87
3.9.1 数据排序 87
3.9.2 数据排名 90
3.10 小结 92
第4章 Pandas统计分析(下) 93
4.1 数据计算 93
4.1.1 求和(sum()函数) 93
4.1.2 求均值(mean()函数) 94
4.1.3 求值(max()函数) 95
4.1.4 求小值(min()函数) 96
4.1.5 求中位数(median()函数) 97
4.1.6 求众数(mode()函数) 98
4.1.7 求方差(var()函数) 99
4.1.8 标准差(数据标准化std()函数) 101
4.1.9 求分位数(quantile()函数) 101
4.2 数据格式化 103
4.2.1 设置小数位数 103
4.2.2 设置百分比 104
4.2.3 设置千位分隔符 105
4.3 数据分组统计 106
4.3.1 分组统计groupby()函数 106
4.3.2 对分组数据进行迭代 108
4.3.3 对分组的某列或多列使用聚合函数(agg()函数) 109
4.3.4 通过字典和Series对象进行分组统计 111
4.4 数据移位 112
4.5 数据转换 113
4.5.1 一列数据转换为多列数据 113
4.5.2 行列转换 116
4.5.3 DataFrame转换为字典 118
4.5.4 DataFrame转换为列表 119
4.5.5 DataFrame转换为元组 119
4.5.6 Excel转换为HTML网页格式 120
4.6 数据合并 120
4.6.1 数据合并(merge()方法) 120
4.6.2 数据合并(concat()方法) 124
4.7 数据导出 126
4.7.1 导出为.xlsx文件 126
4.7.2 导出为.csv文件 128
4.7.3 导出多个Sheet 129
4.8 日期数据处理 129
4.8.1 DataFrame的日期数据转换 129
4.8.2 dt对象的使用 131
4.8.3 获取日期区间的数据 132
4.8.4 按不同时期统计并显示数据 133
4.9 时间序列 135
4.9.1 重采样(Resample()方法) 135
4.9.2 降采样处理 137
4.9.3 升采样处理 138
4.9.4 时间序列数据汇总(ohlc()函数) 139
4.9.5 移动窗口数据计算(rolling()函数) 140
4.10 综合应用 142
4.10.1 案例1:Excel多表合并 142
4.10.2 案例2:股票行情数据分析 143
4.11 小结 144
第5章 Matplotlib可视化数据分析图表 145
5.1 数据分析图表的作用 145
5.2 如何选择适合的图表类型 146
5.3 图表的基本组成 147
5.4 Matplotlib概述 148
5.4.1 Matplotlib简介 148
5.4.2 安装Matplotlib 150
5.4.3 Matplotlib图表之初体验 151
5.5 图表的常用设置 152
5.5.1 基本绘图plot()函数 152
5.5.2 设置画布 155
5.5.3 设置坐标轴 156
5.5.4 添加文本标签 159
5.5.5 设置标题和图例 160
5.5.6 添加注释 161
5.5.7 调整图表与画布边缘间距 163
5.5.8 其他设置 164
5.6 常用图表的绘制 164
5.6.1 绘制折线图 164
5.6.2 绘制柱形图 166
5.6.3 绘制直方图 169
5.6.4 绘制饼形图 170
5.6.5 绘制散点图 174
5.6.6 绘制面积图 176
5.6.7 绘制热力图 178
5.6.8 绘制箱形图 180
5.6.9 绘制3D图表 183
5.6.10 绘制多个子图表 184
5.6.11 图表的保存 189
5.7 综合应用 189
5.7.1 案例1:双y轴可视化数据分析图表的实现 189
5.7.2 案例2:颜色渐变饼形图的实现 190
5.7.3 案例3:等高线图的实现 192
5.8 小结 193
第6章 Seaborn可视化数据分析图表 194
6.1 Seaborn图表概述 194
6.2 Seaborn图表之初体验 195
6.3 Seaborn图表的基本设置 196
6.3.1 背景风格 196
6.3.2 边框控制 197
6.4 常用图表的绘制 197
6.4.1 绘制折线图(relplot()函数) 197
6.4.2 绘制直方图(displot()函数) 199
6.4.3 绘制条形图(barplot()函数) 200
6.4.4 绘制散点图(replot()函数) 200
6.4.5 绘制线性回归模型(lmplot()函数) 202
6.4.6 绘制箱形图(boxplot()函数) 202
6.4.7 绘制核密度图(kdeplot()函数) 203
6.4.8 绘制提琴图(violinplot()函数) 204
6.5 综合应用 205
6.5.1 案例1:堆叠柱形图可视化数据分析图表的实现 205
6.5.2 案例2:统计双色球中奖号码热力图 206
6.6 小结 208
第7章 第三方可视化数据分析图表Pyecharts 209
7.1 Pyecharts概述 209
7.1.1 Pyecharts简介 209
7.1.2 安装Pyecharts 210
7.1.3 绘制张图表 211
7.2 Pyecharts图表的组成 212
7.2.1 主题风格 212
7.2.2 图表标题 214
7.2.3 图例 216
7.2.4 提示框 218
7.2.5 视觉映射 220
7.2.6 工具箱 222
7.2.7 区域缩放 224
7.3 Pyecharts图表的绘制 226
7.3.1 柱状图—Bar模块 226
7.3.2 折线/面积图—Line模块 227
7.3.3 饼形图—Pie模块 229
7.3.4 箱形图—Boxplot模块 231
7.3.5 涟漪特效散点图—EffectScatter模块 232
7.3.6 词云图—WordCloud模块 233
7.3.7 热力图—HeatMap模块 235
7.3.8 水球图—Liquid模块 237
7.3.9 日历图—Calendar模块 237
7.4 综合应用 238
7.4.1 案例1:南丁格尔玫瑰图 238
7.4.2 案例2:双y轴可视化数据分析图表的实现(柱形图 折线图) 240
7.4.3 案例3:饼形图与环形图组合图表的实现 242
7.5 小结 244
第8章 图解数组计算模块NumPy 245
8.1 初识NumPy 245
8.1.1 NumPy概述 245
8.1.2 安装NumPy模块 246
8.1.3 数组相关概念 247
8.2 创建数组 248
8.2.1 创建简单的数组 248
8.2.2 不同方式创建数组 250
8.2.3 从数值范围创建数组 251
8.2.4 生成随机数组 254
8.2.5 从已有的数组中创建数组 257
8.3 数组的基本操作 260
8.3.1 数据类型 260
8.3.2 数组运算 262
8.3.3 数组的索引和切片 265
8.3.4 数组重塑 269
8.3.5 数组的增、删、改、查 271
8.4 NumPy矩阵的基本操作 274
8.4.1 创建矩阵 274
8.4.2 矩阵运算 277
8.4.3 矩阵转换 279
8.5 NumPy常用统计分析函数 280
8.5.1 数学运算函数 280
8.5.2 统计分析函数 285
8.5.3 数组的排序 288
8.6 综合应用 290
8.6.1 案例1:NumPy实现正态分布 290
8.6.2 案例2:NumPy用于图像灰度处理 291
8.7 小结 292
第9章 数据统计分析案例 293
9.1 对比分析 293
9.1.1 什么是对比分析 293
9.1.2 案例:对比分析各品牌销量表现TOP10 293
9.2 同比、定比和环比分析 294
9.2.1 同比、定比和环比概述 295
9.2.2 案例1:电商单品销量同比增长情况分析 295
9.2.3 案例2:单品销量定比分析 297
9.2.4 案例3:单品销量环比增长情况分析 298
9.3 贡献度分析(帕累托法则) 300
9.3.1 什么是贡献度分析 300
9.3.2 案例:产品贡献度分析 300
9.4 差异化分析 302
9.4.1 差异化概述 302
9.4.2 案例:学生成绩性别差异分析 302
9.5 相关性分析 303
9.5.1 相关性概述 303
9.5.2 案例:广告展现量与费用成本相关性分析 303
9.6 时间序列分析 306
9.6.1 时间序列概述 306
9.6.2 案例:年增长趋势和季节性波动分析 306
9.7 小结 307
第3篇 高级篇
第10章 机器学习库Scikit-Learn 310
10.1 Scikit-Learn简介 310
10.2 安装Scikit-Learn 310
10.3 线性模型 312
10.3.1 小二乘法回归 312
10.3.2 岭回归 313
10.4 支持向量机 314
10.5 聚类 316
10.5.1 什么是聚类 316
10.5.2 聚类算法 317
10.5.3 聚类模块 318
10.5.4 聚类数据生成器 319
10.6 小结 320
第4篇 项目篇
第11章 注册用户分析(MySQL版) 322
11.1 概述 322
11.2 项目效果预览 322
11.3 项目准备 323
11.4 导入MySQL数据 323
11.4.1 Python操纵MySQL 323
11.4.2 Python连接MySQL数据库 324
11.5 项目实现过程 325
11.5.1 数据准备 325
11.5.2 数据检测 325
11.5.3 年度注册用户分析 326
11.5.4 新注册用户分析 328
11.6 小结 329
第12章 电商销售数据分析与预测 330
12.1 概述 330
12.2 项目效果预览 330
12.3 项目准备 331
12.4 分析方法 331
12.5 项目实现过程 332
12.5.1 数据处理 332
12.5.2 日期数据统计并显示 332
12.5.3 销售收入分析 333
12.5.4 销售收入与广告费相关性分析 334
12.5.5 销售收入预测 337
12.5.6 预测评分 338
12.6 小结 339
第13章 二手房房价分析与预测 340
13.1 概述 340
13.2 项目效果预览 340
13.3 项目准备 342
13.4 图表工具模块 342
13.4.1 绘制饼形图 342
13.4.2 绘制折线图 343
13.4.3 绘制条形图 344
13.5 项目实现过程 345
13.5.1 数据清洗 345
13.5.2 区域二手房均价分析 346
13.5.3 区域二手房数据及占比分析 347
13.5.4 全市二手房装修程度分析 348
13.5.5 热门户型均价分析 350
13.5.6 二手房房价预测 350
13.6 小结 354
第14章 客户价值分析 355
14.1 概述 355
14.2 项目效果预览 355
14.3 项目准备 356
14.4 分析方法 357
14.4.1 RFM模型 357
14.4.2 聚类 358
14.5 项目实现过程 358
14.5.1 准备工作 358
14.5.2 数据抽取 358
14.5.3 数据探索分析 358
14.5.4 计算RFM值 359
14.5.5 数据转换 360
14.5.6 客户聚类 360
14.5.7 标记客户类别 362
14.6 客户价值结果分析 363
14.7 小结 364
下载地址