失效链接处理 |
BigDataBench_开源的大数据系统评测基准_詹剑锋 PDF 下载
本站整理下载:
相关截图:
主要内容:
大数据评测基准需求
Gray[16]认为:特定领域的评测基准应选择典型
应用,并满足领域内应用的多样性.据此他进一步提
出了一套成功的评测基准需要满足的4个条件:系
统相关性、可移植性、可扩展性和简单.其中,系统相
关性是指能够评测领域相关的系统性能,包括系统
的峰值性能,性价比等;可移植性是指评测基准能够
移植到不同的平台上,易于在不同的系统和架构上
实现;可扩展性是指能够适应不同的系统规模;简单
是指评测基准易于理解,评测结果具有可靠性.
参考 Gray提 出 的4条 标 准,并 结 合 大 数 据 海
量、高速、多样的特性,我们提出了针对大数据领域
的评测基准需要满足的需求. (1)可代 表 性.大数据领域具有非常广的覆盖
范围,信息时代的来临使得越来越多的应用领域涉
及到大数据的处理和存储,因此一个完整而全面的
评测基准不可能一蹴而就.如何尽可能提高负载覆
盖度又不失评测的简易性是很大的挑战,这也就要
求评测基准具有领域代表性.我们认为大数据领域
的代表性主要体现在3个方面:① 代 表 性 负 载.众
所周知,目前应用领域极其繁多,领域之间有一定的
共有特性,但每个领域有其独特性,因此应用领域和
负载的代表性在一定程度上也就决定了评测基准的
代表性;② 代 表 性 数 据.大 数 据 领 域 与 传 统 数 据 库
等领域的一个显著区别即是数据类型多元化,传统
的结构化数据不再占据主导地位,半结构化和非结
构化数据爆炸性增长,因此评测基准不能忽略复杂
而多样的数据 类 型;③ 代 表 性 软 件 栈.数 据 迅 猛 增
长催生了众多的大数据处理和存储系统,然而不同
的软件栈对大数据负载的行为特征具有很大的影
响[12-13],因此 大 数 据 评 测 基 准 需 要 涵 盖 代 表 性 软
件栈.(2)可移 植 性.大 数 据 评 测 基 准 不 仅 需 要 能 够
纵向地评测大数据系统,而且需要能够对不同的系
统进行横向的对比.这就要求相同的负载能够提供
不同的实现方式,评测基准能够便利地移植到其他
平台.为了使不同的实现方式具有公平的可比性,针
对不同平台 的 实 现,需 要 具 有 相 同 的 输 入 和 输 出,
以及相同的算法处理逻辑.如今,一系列针对大数据
处理和存 储 的 开 源 产 品 被 发 布,例 如 MapReduce、 Spark等,所以在评测基准的实现过程中需要考虑
基于这些不同的软件栈的实现. (3)可扩 展 性.大 数 据 评 测 基 准 需 要 提 供 可 扩
展的数据集和负载.大数据的一个显著特征即是数
据量大,单一节点的存储已逐步转变成分布式存储,
因此评测基准所提供的数据和负载需要适应不同规
891 计 算 机 学 报 2016年
模的平台.然而如今大多数的大数据持有者视数据
为重要的商业机密,因而能够提供符合真实数据特
性的可扩展数据集是大数据评测基准重要而基本的
需求.
|