BigDataBench_开源的大数据系统评测基准_詹剑锋 PDF 下载

失效链接处理

BigDataBench_开源的大数据系统评测基准_詹剑锋 PDF 下载

本站整理下载：

链接：https://pan.baidu.com/s/1k7G82RqFpfSFZH49uSMGgw

提取码：15xv

相关截图：

主要内容：

大数据评测基准需求

Ｇｒａｙ［１６］认为：特定领域的评测基准应选择典型

应用，并满足领域内应用的多样性．据此他进一步提

出了一套成功的评测基准需要满足的４个条件：系

统相关性、可移植性、可扩展性和简单．其中，系统相

关性是指能够评测领域相关的系统性能，包括系统

的峰值性能，性价比等；可移植性是指评测基准能够

移植到不同的平台上，易于在不同的系统和架构上

实现；可扩展性是指能够适应不同的系统规模；简单

是指评测基准易于理解，评测结果具有可靠性．

参考Ｇｒａｙ提出的４条标准，并结合大数据海

量、高速、多样的特性，我们提出了针对大数据领域

的评测基准需要满足的需求．（１）可代表性．大数据领域具有非常广的覆盖

范围，信息时代的来临使得越来越多的应用领域涉

及到大数据的处理和存储，因此一个完整而全面的

评测基准不可能一蹴而就．如何尽可能提高负载覆

盖度又不失评测的简易性是很大的挑战，这也就要

求评测基准具有领域代表性．我们认为大数据领域

的代表性主要体现在３个方面：① 代表性负载．众

所周知，目前应用领域极其繁多，领域之间有一定的

共有特性，但每个领域有其独特性，因此应用领域和

负载的代表性在一定程度上也就决定了评测基准的

代表性；② 代表性数据．大数据领域与传统数据库

等领域的一个显著区别即是数据类型多元化，传统

的结构化数据不再占据主导地位，半结构化和非结

构化数据爆炸性增长，因此评测基准不能忽略复杂

而多样的数据类型；③ 代表性软件栈．数据迅猛增

长催生了众多的大数据处理和存储系统，然而不同

的软件栈对大数据负载的行为特征具有很大的影

响［１２－１３］，因此大数据评测基准需要涵盖代表性软

件栈．（２）可移植性．大数据评测基准不仅需要能够

纵向地评测大数据系统，而且需要能够对不同的系

统进行横向的对比．这就要求相同的负载能够提供

不同的实现方式，评测基准能够便利地移植到其他

平台．为了使不同的实现方式具有公平的可比性，针

对不同平台的实现，需要具有相同的输入和输出，

以及相同的算法处理逻辑．如今，一系列针对大数据

处理和存储的开源产品被发布，例如ＭａｐＲｅｄｕｃｅ、Ｓｐａｒｋ等，所以在评测基准的实现过程中需要考虑

基于这些不同的软件栈的实现．（３）可扩展性．大数据评测基准需要提供可扩

展的数据集和负载．大数据的一个显著特征即是数

据量大，单一节点的存储已逐步转变成分布式存储，

因此评测基准所提供的数据和负载需要适应不同规

８９１计　　算　　机　　学　　报２０１６年

模的平台．然而如今大多数的大数据持有者视数据

为重要的商业机密，因而能够提供符合真实数据特

性的可扩展数据集是大数据评测基准重要而基本的

需求．

最新Java全栈就业实战课程(免费)

AI人工智能学习大礼包

IDEA永久激活

66套java实战课程无套路领取

锋哥开始收Java学员啦！

Python学习路线图

BigDataBench_开源的大数据系统评测基准_詹剑锋 PDF 下载