失效链接处理 |
Spark实用教程_v3.1.2_预览版 PDF 下载
本站整理下载:
相关截图:
主要内容:
Apache Spark 是一个用于快速、通用、大规模数据处理的开源项目。它类似于 Hadoop 的 MapReduce, 但对于执行批处理来说速度更快、更高效。Apache Spark 可以部署在大量廉价的硬件设备上,以创建大 数据并处计算集群。 Apache Spark 作为一个用于大数据处理的内存并行计算框架,它利用内存缓存和优化执行来获得更 快的性能,并且支持以任何格式读取/写入 Hadoop 数据,同时保证了高容错性和可扩展性。现在,Apache Spark 已经成为一个统一的大数据处理平台,拥有一个快速的统一分析引擎,可用于大数据的批处理、 实时流处理、机器学习和图计算。 自 2010 年首次发布以来,Apache Spark 已经成为最活跃的大数据开源项目之一。如今,Apache Spark 实际上已经是大数据处理、数据科学、机器学习和数据分析工作负载的统一引擎。 1.1 Spark 简介 2009 年,Spark 诞生于伯克利大学 AMP 实验室,最初属于伯克利大学的研究性项目。它于 2010 年 被正式开源,于 2013 年被转交给 Apache 软件基金会,并于 2014 年成为 Aparch 基金的顶级项目,整个 过程不到五年时间。Apache Spark 诞生以后,迅速发展成为了大数据处理技术中的佼佼者,目前已经成 为大数据处理领域炙手可热的技术,其发展势头非常强劲。 下图演示了 Spark 的内存计算模型。Spark 一次性从 HDFS 中读取所有的数据并以分布式的方式缓 存在计算机集群中各节点的内存中。 下图是 Spark 用于迭代算法的内存数据共享表示: Spark 与其他分布式计算平台相比有许多独特的优势,例如: 用于迭代机器学习和交互式数据分析的更快的执行平台。 用于批处理、SQL 查询、实时流处理、图处理和复杂数据分析的单一技术栈。 通过隐藏分布式编程的复杂性,提供高级 API 来供用户开发各种分布式应用程序。 对各种数据源的无缝支持,如 RDBMS、HBase、Cassandra、Parquet、MongoDB、HDFS、Amazon S3,等等。 Spark 隐藏了编写核心 MapReduce 作业的复杂性,并通过简单的函数调用提供了大部分功能。由于 它的简单性,它受到了用户的广泛应用和认同,比如数据科学家、数据工程师、统计学家,以及 R /Python/Scala/Java 开发人员。由于 Spark 采用了内存计算,并采用函数式编程,提供了大量高阶函数和 算子,因此它具有以下三个显著特性:速度、易用性和灵活性。 在 2014 年,Spark 赢得了 Daytona GraySort 竞赛,该竞赛是对 100 TB 数据进行排序的行业基准(1 万亿条记录)。来自 Databricks 的提交声称 Spark 能够以比之前的 Hadoop MapReduce 所创造的世界记 录的速度快三倍的速度对 100 TB 的数据进行排序,并且使用的资源减少了 10 倍。 |