失效链接处理 |
HadoopMapReduce短作业执行性能优化文档 PDF 下载
本站整理下载:
提取码:sa74
相关截图:
主要内容:
由 Google公 司 于2004年 提 出 的 MapReduce[1]
并行计算框架目前被广泛应用于解决大规模数据处
理问题.MapReduce与之前诸多并行编程模型如消
息传递接口(messagepassinginterface,MPI)[2]和
并行虚 拟 机 (parallelvirtualmachine,PVM)[3]完
全不同.它提供了两个非常简单的编程接口:map和
reduce.当开发人员实现了这两个接口之后,应用程
序可以在 Hadoop[4]
MapReduce并行框架上实现自
动并行计 算.MapReduce拥 有 诸 多 良 好 特 性,如 负
载平 衡、高 可 扩 展 性 以 及 容 错 等[5]
.MapReduce是
当前工业界和学术界最有效的大规模数据处理问题
并行解决方案之一.
近年来,为了在大数据集下获得较高的执行效
率,研究者们基于 MapReduce设计了很多并行化的
算法,如机器学习算法[6-7]等.另外,也有研究工作分
析了 MapReduce和其他一些并行编程模型的不同,
并指出其在性能上还存在一些问题需要解决[8].这
个领域不断地吸引了很多研究者,他们着力于优化
MapReduce的各种性能.Facebook为了解决 Hadoop
集群的资源 共 享 问 题,文 献[9]提 出 了 公 平 调 度 算
法[9];另外,为了加强 MapReduce计算向 数 据 迁 移
的特性,Facebook还提出了延迟调度算法[10].加 州
大学伯 克 利 分 校 提 出 了 LATE(longestapproximate
timetoend)算 法[11],用于提高投机任务执行的性
能;HPMR(highperformance mapkeduceengine)[12]
采用pre-fetching和pre-shuffling优 化 策 略,也 提
升了 Hadoop的整体性能;文献[13]将 map任务产
生的中间数据存入分布式内存中,以加速 MapReduce
任务的执行;文献[14]提出了一种计算 MapReduce
作业执行进 度 的 算 法,可有效预测作业结束时间;
文献[15]提 出 了 一 种 自 动 优 化 MapReduce参 数
的算法;文献[16]利用作业和任务的多重并发平衡
磁盘和网络带宽,减小瓶颈出现的可能性,提高系统
性能
|