Python+Superset:商业智能数据分析与实战
作 者: 王国平 著
出版时间: 2022
内容简介
本书通过实际案例深入介绍了基于Python的开源商业智能工具Apache Superset。本书立足于为企业建立一套开源免费的BI(商业智能)数据分析平台,实现自助数据处理、数据分析、数据可视化,概述了该系统的基本情况、总体需求、解决方案和业务理解等。本书从企业BI系统建设的实际需求出发,详细阐述了商业智能系统开发的概念、流程及相关技术,同时结合实际案例介绍了基于Apache Superset的**且常用的商业智能技术,包括Redis、Hive、Presto、Vertica、ClickHouse、TiDB、Dremio等。
目录
第1章 商业智能概述\t1
1.1 商业智能简介\t1
1.1.1 商业智能的发展\t1
1.1.2 商业智能的价值\t3
1.1.3 商业智能的流程\t4
1.2 商业智能技术\t4
1.2.1 数据仓库技术\t4
1.2.2 ETL技术\t6
1.2.3 数据可视化技术\t6
1.3 几个概念的比较\t10
1.3.1 商业智能与报表工具\t10
1.3.2 商业智能与数据分析\t11
1.3.3 商业智能与数据可视化\t11
第2章 系统开发需求分析\t12
2.1 项目背景概述\t12
2.1.1 项目意义与需求\t12
2.1.2 项目目标、系统设计与阶段划分\t16
2.2 平台总体需求\t18
2.2.1 平台总体规划\t19
2.2.2 平台用户角色\t20
2.3 解决方案概述\t21
2.3.1 BI平台功能简介\t21
2.3.2 BI平台总体架构\t22
2.4 业务数据理解\t23
2.4.1 表及其字段含义\t24
2.4.2 重要需求点阐述\t28
第3章 系统开发相关技术\t31
3.1 系统主要软件\t31
3.1.1 Hadoop\t31
3.1.2 Python\t34
3.1.3 Apache Superset\t35
3.2 数据仓库技术\t37
3.2.1 数据仓库构建过程\t37
3.2.2 数据仓库拉链算法\t38
3.3 Apache Superset的安装\t39
3.3.1 在Docker中部署Apache Superset\t39
3.3.2 在Windows下安装Apache Superset\t44
第4章 Apache Superset连接数据源\t47
4.1 读取本地数据\t47
4.1.1 读取CSV文件\t47
4.1.2 读取TXT文件\t51
4.2 连接关系型数据库\t51
4.2.1 安装驱动程序\t52
4.2.2 配置连接参数\t53
4.2.3 添加数据库表\t58
第5章 Apache Superset基础操作\t61
5.1 Apache Superset可视化分析\t61
5.1.1 SQL Lab提取数据\t61
5.1.2 制作报表与看板\t64
5.2 Apache Superset用户管理\t68
5.2.1 创建新的系统用户\t68
5.2.2 删除已有系统用户\t70
5.2.3 查看用户日志记录\t71
5.3 Apache Superset角色管理\t72
5.3.1 设置用户角色类型\t73
5.3.2 创建新的用户角色\t73
5.3.3 修改用户角色类型\t75
5.4 Apache Superset看板设置与编辑\t77
5.4.1 Apache Superset看板设置\t77
5.4.2 Apache Superset看板编辑\t81
第6章 Apache Superset前端集成开发\t84
6.1 前端开发概述\t84
6.1.1 HTML及其应用案例\t84
6.1.2 JavaScript及其特点\t88
6.2 系统参数设置\t89
6.3 Apache Superset前端集成实战\t90
6.3.1 报表嵌入Web页面\t90
6.3.2 看板嵌入Web页面\t97
第7章 Apache Superset系统性能优化\t100
7.1 系统性能优化\t100
7.2 搭建开发环境\t102
7.2.1 Redis缓存概述\t102
7.2.2 配置Redis环境\t104
7.3 集成开发实战\t106
7.3.1 测试集成前看板\t106
7.3.2 刷新集成后看板\t108
第8章 Apache Superset与数据仓库\t109
8.1 数据仓库概述\t109
8.1.1 传统数据仓库\t109
8.1.2 大数据数据仓库\t111
8.2 Apache Superset集成Hive\t113
8.2.1 Hive数据仓库概述\t113
8.2.2 搭建Hive开发环境\t115
8.3 物流配送影响因素分析\t117
第9章 Apache Superset与实时计算引擎\t121
9.1 实时计算引擎概述\t121
9.1.1 实时计算应用场景\t121
9.1.2 实时计算重要架构\t123
9.2 Apache Superset集成Presto\t126
9.2.1 Presto计算引擎概述\t126
9.2.2 搭建Presto开发环境\t128
9.3 网购退货原因分析\t132
9.3.1 网购退货主要原因\t132
9.3.2 个人原因退货分析\t134
第10章 Apache Superset与列式存储引擎\t136
10.1 列式存储引擎\t136
10.2 Apache Superset集成Vertica\t138
10.2.1 Vertica存储引擎概述\t138
10.2.2 搭建Vertica开发环境\t140
10.3 客户流失原因分析\t144
10.3.1 客户流失主要原因\t144
10.3.2 客户流失服务因素分析\t145
第11章 Apache Superset与联机分析处理\t147
11.1 联机分析处理概述\t147
11.1.1 联机分析处理特性\t147
11.1.2 联机分析处理操作\t149
11.2 Apache Superset集成ClickHouse\t150
11.2.1 ClickHouse存储引擎概述\t151
11.2.2 搭建ClickHouse开发环境\t152
13.3 商家物流运营分析\t155
11.3.1 物流运营主要模式\t156
11.3.2 商家交货周期分析\t157
第12章 Apache Superset与混合事务分析处理\t159
12.1 混合事务分析处理\t159
12.1.1 混合事务分析处理概述\t159
12.1.2 混合事务分析处理操作\t161
12.2 Apache Superset集成TiDB\t163
12.2.1 TiDB存储引擎概述\t163
12.2.2 搭建TiDB开发环境\t166
12.3 物流配送沟通性\t168
12.3.1 物流配送沟通性概述\t169
12.3.2 物流配送沟通性分析\t169
第13章 Apache Superset与数据湖引擎\t172
13.1 数据湖引擎\t172
13.1.1 数据湖引擎概述\t172
13.1.2 数据湖与数据仓库\t173
13.2 Apache Superset集成Dremio\t174
13.2.1 Dremio引擎概述\t175
13.2.2 搭建Dremio开发环境\t176
13.3 客户流失价格因素\t182
13.3.1 客户流失价格因素概述\t182
13.3.2 客户流失价格因素分析\t182
第14章 客户细分主题分析\t184
14.1 客户细分的价值及其方法\t184
14.1.1 客户细分的概念\t184
14.1.2 客户细分的目的\t185
14.1.3 客户细分的方法\t185
14.2 基于客户属性的客户细分\t187
14.2.1 提取SQL数据库数据\t187
14.2.2 制作可视化分析报表\t188
14.2.3 基于属性的细分看板\t192
14.3 基于客户价值的客户细分\t193
14.3.1 提取SQL数据库数据\t193
14.3.2 制作可视化分析报表\t194
14.3.3 基于价值的细分看板\t198
14.4 基于消费行为的客户细分\t199
14.4.1 RFM模型及客户价值类型\t199
14.4.2 提取与清洗SQL数据\t200
14.4.3 制作可视化分析报表\t204
14.4.4 基于行为的细分看板\t208
14.5 对细分客户进行营销\t208
第15章 客户满意度主题分析\t211
15.1 客户满意度概述\t211
15.2 客户满意信赖度分析\t214
15.3 客户满意专业度分析\t215
15.4 客户满意有形度分析\t217
15.5 客户满意同理度分析\t218
15.6 客户满意反应度分析\t220
15.7 提升客户满意度\t221
附录A 安装Python 3.10.0\t224
附录B 集群各节点的参数配置\t228
B.1 Hadoop的参数配置\t228
B.2 Hive的参数配置\t231
B.3 集群的启动与关闭\t233
附录C 数据源及其连接方式\t234