失效链接处理 |
Spark大数据处理_原理算法与实例 PDF 下载
转载自:https://www.jb51.net/books/625805.html
本站整理下载:
版权归出版社和原作者所有,链接已删除,请购买正版
用户下载说明:
电子版仅供预览,下载后24小时内务必删除,支持正版,喜欢的请购买正版书籍:
http://product.dangdang.com/24046879.html
相关截图:
资料简介: 本书以时下最为流行的Hadoop所存在的缺陷为出发点,深入浅出地介绍了下一代大数据处理核心技术Spark的优势和必要性,并以最简洁的指引步骤展示了如何在10分钟内建立一个Spark大数据处理环境。在此基础上,本书以图文并茂和丰富的示例代码讲解的形式系统性地揭示了Spark的运行原理、算子使用、算法设计和优化手段,为读者提供了一个快速由浅入深掌握Spark基础能力和高级技巧的参考书籍。 本书共六章,涉及的主题主要包括大数据处理技术从Hadoop发展到Spark的必然性、快速体验Spark的指引、Spark架构和原理、RDD算子使用方法和示例、Spark算法设计实例、Spark程序优化方法。 本书适合需要使用Spark进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料,亦可作为高校研究生和本科生教材。 资料目录: 第1章从Hadoop到Spark 1.1Hadoop——大数据时代的火种 1.1.1大数据的由来 1.1.2Google解决大数据计算问题的方法 1.1.3Hadoop的由来与发展 1.2Hadoop的局限性 1.2.1Hadoop运行机制 1.2.2Hadoop的性能问题 1.2.3针对Hadoop的改进 1.3大数据技术新星——Spark 1.3.1Spark的出现与发展 1.3.2Spark协议族 1.3.3Spark的应用及优势 第2章体验Spark 2.1安装和使用Spark 2.1.1安装Spark 2.1.2了解Spark目录结构 2.1.3使用Spark Shell 2.2编写和运行Spark程序 2.2.1安装Scala插件 2.2.2编写Spark程序 2.2.3运行Spark程序 2.3Spark Web UI 2.3.1访问实时Web UI 2.3.2从实时UI查看作业信息 第3章Spark原理 3.1Spark工作原理 3.2Spark架构及运行机制 3.2.1Spark系统架构与节点角色 3.2.2Spark作业执行过程 3.2.3应用初始化 3.2.4构建RDD有向无环图 3.2.5RDD有向无环图拆分 3.2.6Task调度 3.2.7Task执行 第4章RDD算子 4.1创建算子 4.1.1基于集合类型数据创建RDD 4.1.2基于外部数据创建RDD 4.2变换算子 4.2.1对Value型RDD进行变换 4.2.2对Key/ Value型RDD进行变换 4.3行动算子 4.3.1数据运算类行动算子 4.3.2存储型行动算子 4.4缓存算子 第5章Spark算法设计 5.1过滤 5.2去重计数 5.3相关计数 5.4相关系数 5.5数据联结 5.6TopK 5.7Kmeans 5.8关联规则挖掘 5.9kNN 5.10朴素贝叶斯分类 第6章善用Spark 6.1合理分配资源 6.2控制并行度 6.3利用持久化 6.4选择恰当的算子 6.5利用共享变量 6.5.1累加器变量 6.5.2广播变量 6.6利用序列化技术 6.7关注数据本地性 6.8内存优化策略 6.9集成外部工具 参考文献 |