Java知识分享网 - 轻松学习从此开始!    

Java知识分享网

Java1234官方群25:java1234官方群17
Java1234官方群25:838462530
        
SpringBoot+SpringSecurity+Vue+ElementPlus权限系统实战课程 震撼发布        

最新Java全栈就业实战课程(免费)

springcloud分布式电商秒杀实战课程

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦!

Python学习路线图

锋哥开始收Java学员啦!
当前位置: 主页 > Java文档 > 大数据云计算 >

Spark性能优化指南 PDF 下载


分享到:
时间:2021-04-08 10:02来源:http://www.java1234.com 作者:转载  侵权举报
Spark性能优化指南 PDF 下载
失效链接处理
Spark性能优化指南  PDF 下载


本站整理下载:
提取码:pc36 
 
 
相关截图:
 
主要内容:

⼀、基础篇
在⼤数据计算领域,Spark已经成为了越来越流⾏、越来越受欢迎的计算平台之⼀。Spark的功能涵
盖了⼤数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算
操作,应⽤范围与前景⾮常⼴泛。已经有很多⼈在各种项⽬中尝试使⽤Spark。⼤多数(包括我在内),最
初开始尝试使⽤Spark的原因很简单,主要是为了让⼤数据计算作业的执⾏速度更快、性能更⾼。
然⽽,通过Spark开发出⾼性能的⼤数据计算作业,并不是那么简单。如果没有对Saprk作业进⾏合
理的调优,Spark作业的执⾏速度可能会很慢,这样就完全体现不出Spark作为⼀种快速⼤数据计算引擎
的优势来。因此想要⽤好Spark,就必须对其进⾏合理的性能优化。
Spark的性能调优实际上是由很多部分组成的,不是调节⼏个参数就可以⽴杆⻅影提升作业性能的。
我妈需要根据不同的业务场景以及数据情况,对Spark作业进⾏综合性的分析,然后进⾏多个⽅⾯的调节
和优化,才能获得最佳性能。
这⾥根据之前的Spark作业开发经验及实践积累,总结出⼀套Spark作业的性能优化⽅法。主要分为
以下⼏点:开发调优、资源调优、数据倾斜调优、shuffle调优 这⼏个部分。
这⾥基础篇,主要是解析开发调优和资源调优。
1. 开发调优
1.1 调优概述
Spark性能优化的第⼀步,就是要在开发Spark作业的过程中注意和应⽤⼀些性能优化的基本原则。
开发调优,就是要让⼤家了解以下⼀些Spark基本开发原则:RDD lineage设计、算⼦的合理使⽤、特殊
操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际
的应⽤场景,灵活地运⽤到⾃⼰的Spark作业中。
1.2 避免创建重复的RDD
在开发⼀个Spark作业时,
这个过程,多个RDD会通过不同的算⼦操作(eg: map、reduce 等)串起来,这个"RDD串"就是RDD
lineage,也就是 "RDD的⾎缘关系链"。
开发过程中要注意:对于同⼀份数据,只应该创建⼀个RDD,不能创建多个RDD来代表同⼀份数
据。
简单例⼦:
1. 基于某个数据源(eg: Hive表或 HDFS⽂件)创建⼀个初始的RDD
2. 对这个RDD执⾏某个算⼦操作,得到下⼀个RDD,
...(循环往复,知道计算出最终我们想要的结果)
⼀些Spark初学者在刚开始开发Spark作业时,或者是有经验的⼯程师在开发RDD lineage及其冗⻓的
Spark作业时,可能会忘记⾃⼰之前对于某⼀份数据已经创建过⼀个RDD,从⽽导致对于同⼀份数据,创建
了多个RDD,这就意味着,Spark作业会进⾏多次重复计算来创建多个代表相同数据的RDD,进⽽添加了作业
的性能开销。

 

------分隔线----------------------------

锋哥公众号


锋哥微信


关注公众号
【Java资料站】
回复 666
获取 
66套java
从菜鸡到大神
项目实战课程

锋哥推荐