失效链接处理 |
Spark大数据商业实战三部曲:内核解密|商业案例|性能调优 PDF 下载 转载自:https://download.csdn.net/download/l_ong211314/10839086 本站整理下载:
版权归出版社和原作者所有,链接已删除,请购买正版
电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍: http://product.dangdang.com/25230552.html 图书简介:
《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手实战案例入手,循序渐进地全面解析了Spark 2.2新特性及Spark内核源码;中篇选取Spark开发中*有代表的经典学习案例,深入浅出地介绍,在案例中综合应用Spark的大数据技术;下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。
相关截图: 图书目录: 上篇 内核解密 第1章 电光石火间体验Spark 2.2开发实战... 2 1.1 通过RDD实战电影点评系统入门及源码阅读... 2
1.2 通过DataFrame和DataSet实战电影点评系统... 7
1.3 Spark 2.2源码阅读环境搭建及源码阅读体验... 11 第2章 Spark 2.2技术及原理... 14 2.1 Spark 2.2综述... 14
2.2 Spark 2.2 Core. 16
2.3 Spark 2.2 SQL. 19
2.4 Spark 2.2 Streaming. 21
2.5 Spark 2.2 MLlib. 27
2.6 Spark 2.2 GraphX.. 29 第3章 Spark的灵魂:RDD和DataSet 30 3.1 为什么说RDD和DataSet是Spark的灵魂... 30
3.2 RDD弹性特性七个方面解析... 36 3.3 RDD依赖关系... 43
3.4 解析Spark中的DAG逻辑视图... 46
3.5 RDD内部的计算机制... 49
3.6 Spark RDD容错原理及其四大核心要点解析... 57
3.7 Spark RDD中Runtime流程解析... 59
3.8 通过WordCount实战解析Spark RDD内部机制... 70
3.9 基于DataSet的代码到底是如何一步步转化成为RDD的... 78 第4章 Spark Driver启动内幕剖析... 81 4.1 Spark Driver Program剖析... 81
4.2 DAGScheduler解析... 96
4.3 TaskScheduler解析... 116
4.4 SchedulerBackend解析... 132
4.5 打通Spark系统运行内幕机制循环流程... 135 4.6 本章总结... 145 第5章 Spark集群启动原理和源码详解... 146 5.1 Master启动原理和源码详解... 146
5.2 Worker启动原理和源码详解... 170
5.3 ExecutorBackend启动原理和源码详解... 178
5.4 Executor中任务的执行... 184
5.5 Executor执行结果的处理方式... 189 5.6 本章总结... 197 第6章 Spark Application提交给集群的原理和源码详解... 198 6.1 Spark Application到底是如何提交给集群的... 198
6.2 Spark Application是如何向集群申请资源的... 211
6.3 从Application提交的角度重新审视Driver 219
6.4 从Application提交的角度重新审视Executor 249
6.5 Spark 1.6 RPC内幕解密:运行机制、源码详解、Netty与Akka等... 254 6.6 本章总结... 267 第7章 Shuffle原理和源码详解... 268 7.1 概述... 268 7.2 Shuffle的框架... 269
7.3 Hash Based Shuffle. 281
7.4 Sorted Based Shuffle. 290
7.5 Tungsten Sorted Based Shuffle. 302
7.6 Shuffle与Storage 模块间的交互... 309
7.7 本章总结... 341 第8章 Job工作原理和源码详解... 342 8.1 Job到底在什么时候产生... 342
8.2 Stage划分内幕... 345
8.3 Task全生命周期详解... 346
8.4 ShuffleMapTask和ResultTask处理结果是如何被Driver管理的... 364
第9章 Spark中Cache和checkpoint原理和源码详解... 372 9.1 Spark中Cache原理和源码详解... 372
9.2 Spark中checkpoint原理和源码详解... 381
第10章 Spark中Broadcast和Accumulator原理和源码详解... 391 10.1 Spark中Broadcast原理和源码详解... 391
10.2 Spark中Accumulator原理和源码详解... 396
第11章 Spark与大数据其他经典组件整合原理与实战... 399 11.1 Spark组件综合应用... 399 11.2 Spark与Alluxio整合原理与实战... 400
11.3 Spark与Job Server整合原理与实战... 403
11.4 Spark与Redis整合原理与实战... 406
中篇 商业案例 第12章 Spark商业案例之大数据电影点评系统应用案例... 412 12.1 通过RDD实现分析电影的用户行为信息... 412
12.2 通过RDD实现电影流行度分析... 431 12.3 通过RDD分析各种类型的最喜爱电影TopN及性能优化技巧... 433
12.4 通过RDD分析电影点评系统仿QQ和微信等用户群分析及广播 12.5 通过RDD分析电影点评系统实现Java和Scala版本的二次排序系统... 439
12.6 通过Spark SQL中的SQL语句实现电影点评系统用户行为分析... 447 12.7 通过Spark SQL下的两种不同方式实现口碑最佳电影分析... 451 12.8 通过Spark SQL下的两种不同方式实现最流行电影分析... 456 12.9 通过DataFrame分析最受男性和女性喜爱电影TopN.. 457 12.10 纯粹通过DataFrame分析电影点评系统仿QQ和微信、淘宝等用户群... 460 12.11 纯粹通过DataSet对电影点评系统进行流行度和不同年龄阶段兴趣分析等... 462
12.12 大数据电影点评系统应用案例涉及的核心知识点原理、源码及案例代码... 470
12.13 本章总结... 496 |