Storm实战:构建大数据实时计算
作 者: 阿里巴巴集团数据平台事业部商家数据业务部 编
出版时间: 2014
丛编项: 大数据丛书 阿里巴巴集团技术丛书
内容简介
随着大数据实时处理需求的强劲增长,Storm的出现填补了大数据处理生态系统的缺失,并被越来越多的公司所采用。阿里巴巴集团数据平台事业部商家数据业务部正是最早使用Storm的技术团队之一。《Storm实战:构建大数据实时计算》是一本系统并且具有实践指导意义的Storm工具书和参考书,对Storm整个技术体系进行了全面的讲解,不仅包括对基本概念、特性的介绍,也涵盖了一些原理说明。实战性很强,各章节都提供了一些小案例,同时对于本地,以及集群环境的部署有详细介绍,易于理解,操作性强。《Storm实战:构建大数据实时计算 》一共分为10章:第1章全面介绍了Storm的特性、能解决什么问题,以及和其他流计算系统的对比;第2章通过实际运行一个简单的例子,以及介绍本地环境和集群环境的搭建,让读者对Storm有了直观的认识;第3章深入讲解了Storm的基本概念,同时实现一个Topology运行;第4章和第5章阐述了Storm的并发度、可靠处理的特性;第6章~第8章详细而系统地讲解了几个高级特性:事务、DRPC和Trident;第9章以实例的方式讲解了Storm在实际业务场景中的应用;第10章总结了几个在大数据场景应用过程中遇到的经典问题,以及详细的排查过程。
目录
第1章 Storm基础 1
1.1 Storm能做什么 2
1.2 Storm特性 3
1.3 其他流计算系统 8
1.4 应用模式 13
第2章 Storm初体验 17
2.1 本地环境搭建 18
2.2 Storm集群 25
第3章 构建Topology 41
3.1 Storm基本概念 42
3.2 构建Topology 53
3.3 小结 61
第4章 Topology的并行度 62
4.1 并行元素 63
4.2 配置并行度 65
4.3 一个运行中Topology的例子 68
4.4 如何更新运行中的Topology的并行度 71
第5章 消息的可靠处理 73
5.1 简介 74
5.2 理解消息被完整处理 74
5.3 消息的生命周期 76
5.4 可靠相关的API 79
5.5 高效地实现tuple tree 84
5.6 选择合适的可靠性级别 87
5.7 集群的各级容错 89
5.8 小结 91
第6章 一致性事务 92
6.1 简单设计一:强顺序流 93
6.2 简单设计二:强顺序batch流 95
6.3 CoordinateBolt的原理 96
6.4 Transactional Topology 98
第7章 DRPC 105
7.1 Storm DRPC 106
7.2 总体概述 106
7.3 LinearDRPCTopologyBuilder 108
7.4 本地模式DRPC 110
7.5 远程模式DRPC 111
7.6 一个复杂的例子 113
7.7 非线性DRPC拓扑 117
7.8 LinearDRPCTopologyBuilder工作过程 117
7.9 高级进阶 118
第8章 Trident的特性 119
8.1 理解Trident 120
8.2 结合多个Trident任务 124
8.3 消费和生产Field 126
8.4 State(状态保存) 128
8.5 Trident Topology的执行过程 136
8.6 总结 137
第9章 Storm实例 138
9.1 一个简单的实例 139
9.2 复杂一点的实例 150
9.3 其他 161
第10章 常见应用问题分析 162
10.1 性能问题排查与定位 163
10.2 系统中常见的问题与排查 167
10.3 业务问题的定位与排查 170