Python+Superset:商业智能数据分析与实战 作 者: 王国平 著 出版时间: 2022
内容简介 本书通过实际案例深入介绍了基于Python的开源商业智能工具Apache Superset。本书立足于为企业建立一套开源免费的BI(商业智能)数据分析平台,实现自助数据处理、数据分析、数据可视化,概述了该系统的基本情况、总体需求、解决方案和业务理解等。本书从企业BI系统建设的实际需求出发,详细阐述了商业智能系统开发的概念、流程及相关技术,同时结合实际案例介绍了基于Apache Superset的**且常用的商业智能技术,包括Redis、Hive、Presto、Vertica、ClickHouse、TiDB、Dremio等。 目录 第1章 商业智能概述/t1 1.1 商业智能简介/t1 1.1.1 商业智能的发展/t1 1.1.2 商业智能的价值/t3 1.1.3 商业智能的流程/t4 1.2 商业智能技术/t4 1.2.1 数据仓库技术/t4 1.2.2 ETL技术/t6 1.2.3 数据可视化技术/t6 1.3 几个概念的比较/t10 1.3.1 商业智能与报表工具/t10 1.3.2 商业智能与数据分析/t11 1.3.3 商业智能与数据可视化/t11 第2章 系统开发需求分析/t12 2.1 项目背景概述/t12 2.1.1 项目意义与需求/t12 2.1.2 项目目标、系统设计与阶段划分/t16 2.2 平台总体需求/t18 2.2.1 平台总体规划/t19 2.2.2 平台用户角色/t20 2.3 解决方案概述/t21 2.3.1 BI平台功能简介/t21 2.3.2 BI平台总体架构/t22 2.4 业务数据理解/t23 2.4.1 表及其字段含义/t24 2.4.2 重要需求点阐述/t28 第3章 系统开发相关技术/t31 3.1 系统主要软件/t31 3.1.1 Hadoop/t31 3.1.2 Python/t34 3.1.3 Apache Superset/t35 3.2 数据仓库技术/t37 3.2.1 数据仓库构建过程/t37 3.2.2 数据仓库拉链算法/t38 3.3 Apache Superset的安装/t39 3.3.1 在Docker中部署Apache Superset/t39 3.3.2 在Windows下安装Apache Superset/t44 第4章 Apache Superset连接数据源/t47 4.1 读取本地数据/t47 4.1.1 读取CSV文件/t47 4.1.2 读取TXT文件/t51 4.2 连接关系型数据库/t51 4.2.1 安装驱动程序/t52 4.2.2 配置连接参数/t53 4.2.3 添加数据库表/t58 第5章 Apache Superset基础操作/t61 5.1 Apache Superset可视化分析/t61 5.1.1 SQL Lab提取数据/t61 5.1.2 制作报表与看板/t64 5.2 Apache Superset用户管理/t68 5.2.1 创建新的系统用户/t68 5.2.2 删除已有系统用户/t70 5.2.3 查看用户日志记录/t71 5.3 Apache Superset角色管理/t72 5.3.1 设置用户角色类型/t73 5.3.2 创建新的用户角色/t73 5.3.3 修改用户角色类型/t75 5.4 Apache Superset看板设置与编辑/t77 5.4.1 Apache Superset看板设置/t77 5.4.2 Apache Superset看板编辑/t81 第6章 Apache Superset前端集成开发/t84 6.1 前端开发概述/t84 6.1.1 HTML及其应用案例/t84 6.1.2 JavaScript及其特点/t88 6.2 系统参数设置/t89 6.3 Apache Superset前端集成实战/t90 6.3.1 报表嵌入Web页面/t90 6.3.2 看板嵌入Web页面/t97 第7章 Apache Superset系统性能优化/t100 7.1 系统性能优化/t100 7.2 搭建开发环境/t102 7.2.1 Redis缓存概述/t102 7.2.2 配置Redis环境/t104 7.3 集成开发实战/t106 7.3.1 测试集成前看板/t106 7.3.2 刷新集成后看板/t108 第8章 Apache Superset与数据仓库/t109 8.1 数据仓库概述/t109 8.1.1 传统数据仓库/t109 8.1.2 大数据数据仓库/t111 8.2 Apache Superset集成Hive/t113 8.2.1 Hive数据仓库概述/t113 8.2.2 搭建Hive开发环境/t115 8.3 物流配送影响因素分析/t117 第9章 Apache Superset与实时计算引擎/t121 9.1 实时计算引擎概述/t121 9.1.1 实时计算应用场景/t121 9.1.2 实时计算重要架构/t123 9.2 Apache Superset集成Presto/t126 9.2.1 Presto计算引擎概述/t126 9.2.2 搭建Presto开发环境/t128 9.3 网购退货原因分析/t132 9.3.1 网购退货主要原因/t132 9.3.2 个人原因退货分析/t134 第10章 Apache Superset与列式存储引擎/t136 10.1 列式存储引擎/t136 10.2 Apache Superset集成Vertica/t138 10.2.1 Vertica存储引擎概述/t138 10.2.2 搭建Vertica开发环境/t140 10.3 客户流失原因分析/t144 10.3.1 客户流失主要原因/t144 10.3.2 客户流失服务因素分析/t145 第11章 Apache Superset与联机分析处理/t147 11.1 联机分析处理概述/t147 11.1.1 联机分析处理特性/t147 11.1.2 联机分析处理操作/t149 11.2 Apache Superset集成ClickHouse/t150 11.2.1 ClickHouse存储引擎概述/t151 11.2.2 搭建ClickHouse开发环境/t152 13.3 商家物流运营分析/t155 11.3.1 物流运营主要模式/t156 11.3.2 商家交货周期分析/t157 第12章 Apache Superset与混合事务分析处理/t159 12.1 混合事务分析处理/t159 12.1.1 混合事务分析处理概述/t159 12.1.2 混合事务分析处理操作/t161 12.2 Apache Superset集成TiDB/t163 12.2.1 TiDB存储引擎概述/t163 12.2.2 搭建TiDB开发环境/t166 12.3 物流配送沟通性/t168 12.3.1 物流配送沟通性概述/t169 12.3.2 物流配送沟通性分析/t169 第13章 Apache Superset与数据湖引擎/t172 13.1 数据湖引擎/t172 13.1.1 数据湖引擎概述/t172 13.1.2 数据湖与数据仓库/t173 13.2 Apache Superset集成Dremio/t174 13.2.1 Dremio引擎概述/t175 13.2.2 搭建Dremio开发环境/t176 13.3 客户流失价格因素/t182 13.3.1 客户流失价格因素概述/t182 13.3.2 客户流失价格因素分析/t182 第14章 客户细分主题分析/t184 14.1 客户细分的价值及其方法/t184 14.1.1 客户细分的概念/t184 14.1.2 客户细分的目的/t185 14.1.3 客户细分的方法/t185 14.2 基于客户属性的客户细分/t187 14.2.1 提取SQL数据库数据/t187 14.2.2 制作可视化分析报表/t188 14.2.3 基于属性的细分看板/t192 14.3 基于客户价值的客户细分/t193 14.3.1 提取SQL数据库数据/t193 14.3.2 制作可视化分析报表/t194 14.3.3 基于价值的细分看板/t198 14.4 基于消费行为的客户细分/t199 14.4.1 RFM模型及客户价值类型/t199 14.4.2 提取与清洗SQL数据/t200 14.4.3 制作可视化分析报表/t204 14.4.4 基于行为的细分看板/t208 14.5 对细分客户进行营销/t208 第15章 客户满意度主题分析/t211 15.1 客户满意度概述/t211 15.2 客户满意信赖度分析/t214 15.3 客户满意专业度分析/t215 15.4 客户满意有形度分析/t217 15.5 客户满意同理度分析/t218 15.6 客户满意反应度分析/t220 15.7 提升客户满意度/t221 附录A 安装Python 3.10.0/t224 附录B 集群各节点的参数配置/t228 B.1 Hadoop的参数配置/t228 B.2 Hive的参数配置/t231 B.3 集群的启动与关闭/t233 附录C 数据源及其连接方式/t234
|