失效链接处理 |
Hadoop平台基准性能测试工具的设计与实现 PDF 下载
本站整理下载:
相关截图:
主要内容:
1.1 课题背景
1.1.1 课题来源
本课题来源于国家 863 重大项目“云计算测试与评估系统研制”,主要完
成该项目中 Hadoop 平台基准性能测试工具的研究与实现工作。Hadoop 平台
是当前云计算平台中最具有代表性的平台之一,因此 Hadoop 平台基准性能
测试与评估工具的设计与实现是很有必要的。这不仅有助于云平台测试与评
估系统的研制,而且可以具体的说明云计算测试与评估系统研制的方式方法。
本课题通过对 Hadoop 分布式平台工作机制的研究,提出全面而又具有代
表性的性能指标,并实现与之对应的基准性能测试工具套件,最终完成
Hadoop 平台性能测试和评估工作。
1.1.2 课题目的与意义
计算机技术已经深深影响了我们的工作、学习和生活,尤其云计算[1]领域, 是当前 IT 领域最热门的话题之一。它通过虚拟化技术将计算机资源整合为一
个资源池,用户以按需分配的方式使用资源,这种集中管理不仅降低成本和
能源消耗,而且可以提供了一种简单、可靠的服务供用户使用云计算平台。
在产业界,各大 IT 公司在研究和开发相关云计算产品上投入大量的人力物
力;在学术界,政府和很多高校也十分重视对云计算技术的研究和投入[2]。
Hadoop[3]是当前云计算领域最具有代表性的平台之一,它的出现最初是受到
google 发布的 MapReduce[4]并行编程模型和 GFS[5]分布式文件系统的启发。
现在已经从 Hadoop V1(Version 1)版本发展到带有 YARN 资源管理组件的
Hadoop V2 版本[6]。目前,Hadoop 主要包括三个子项目组成:MapReduce、
HDFS[7]和 YARN[8]。Hadoop MapReduce 是对 Google 提出 MapReduce 模型的
开源实现,它可以完成大量数据在分布式集群的并行处理工作。Hadoop
Distribute File System (HDFS)是对 GFS 的开源实现,它可以和 MapReduce 模
型很好的结合并为分布式应用提供一个分布式存储系统。YARN 是 Hadoop
V2 版本中的一个资源管理平台,可以支持除了 MapReduce 编程框架的其他
计算框架,并且可以更加高效的管理 Hadoop 平台资源的使用。基于 HDFS
分布式文件系统的容错性和高可伸缩性等特点,可以将 Hadoop 集群搭建在
哈尔滨工业大学工程硕士学位论文
- 2 -
相对低廉的硬件平台。同样,MapReduce 并行计算框架运行用户在不了解分
布式底层细节的情况下编写并行应用程序。Hadoop 平台的简单性、易用性和
高效性使得其越来越广泛的被业界使用和研究。
随着商业数据的日益增加,大数据处理平台一直在不断发展,相应的大
数据平台的评估工作也有待提高和加强[9]。Hadoop 平台是一个底层技术对用
户透明的分布式系统,用户可以在不了解 MapReduce 分布式框架的前提下编
写分布式程序[10]。正是因为 Hadoop 平台的简单、易用特性,使得其被广泛
应用。但是 Hadoop 用户在处理大数据类型工作时往往把如何开发 MapReduce
程序作业工作重点,而忽略了 Hadoop 平台使用效率方面的优化。有的用户
虽然考虑到 Hadoop 平台的优化,但是由于 Hadoop 平台底层的运行机制对用
户是透明的,使得缺乏经验的 Hadoop 用户很难入手。而且 MapReduce 程序
中 map 和 reduce 函数可以以黑盒的方式加载,用非 java 语言编写,如 C++、
Pathon 或者 Ruby 等,使得负载程序的分析变得复杂[11]。Hadoop 平台开发过
程遇到的问题:Hadoop 集群性能如何,Hadoop 平台资源利用率如何,不同
类型的 MapReduce 应用程序运行效率如何,对用户来说都是透明的,这些问
题使得 Hadoop 平台相关性能的优化具有挑战性。
虽然已经出现一些分布式平台测试工具,但是针对 Hadoop 平台的基准测
试工具并不成熟,尤其针对刚出来不久的 Hadoop V2 平台。现有的 Hadoop
测试程序(如 GridMix[12]和 Hive 性能测试工具[13]),由于多样性和代表性程
序集的限制并不能很好的评估 Hadoop 系统。例如,Yahoo 采用过分简化的排
序程序 TeraSort[14]来评估不同的 Hadoop 系统只能测试 MapReduce 在排序方
面的性能,对 Hadoop 平台的评估显得单一。如何简单、方便的监控 Hadoop
集群、清晰的显示 Mapreduce 运行过程、针对不同的类型负载参数应该如何
设置等问题,针对这些问题的一个 Hadoop 平台全面分析工具少之又少。因
此,开发一个可以监控 Hadoop 集群资源利用率,测试不同类型负载性能和
Hadoop 平台整体性能的测试工具套件是很有必要的。在了解 Hadoop 平台资
源利用情况,了解 MapReduce 负载的性能瓶颈,不仅有助于用户优化负载本
身的性能,更可以提高 Hadoop 平台的整体使用效率。这样,用户可以在不
了解 Hadoop 底层运行机制的情况下,使用简单、方便的测试工具对 Hadoop
平台进行测试和评估,进而对 Hadoop 平台相关性能进行优化。
|