失效链接处理 |
Amazon+EMR相关最佳实践 PDF 下载
本站整理下载:
提取码:imzv
相关截图:
主要内容:
Amazon Web Services (简称 AWS)云能够加快大数据分析速度。其提供即时可扩展与弹性能力,允许大家将注意力集中在
分析而非基础设施构建及维护身上。无论大家需要检索的是大规模数据集抑或对海量科学数据乃至点击流日志进行分析,
AWS 都能够提供一系列大数据工具及服务,帮助您顺畅处理几乎全部数据密集型项目。
Amazon Elastic MapReduce (简称 EMR)正是此类服务之一,其立足于 Amazon Elastic Compute Cloud(即 Amazon 弹性计算
云,简称 EC2)提供全面托管的 Hadoop 框架。在本份白皮书中,我们将着重探讨将数据移动至 AWS 以及收集与聚合数据
层面的最佳实践,同时阐述 Amazon EMR 集群当中可实现快速处理的各类常见设置与配置架构模式。我们还将探讨一系列
性能与成本优化技术,可帮助大家以高通量、低成本的可靠模式实现大规模数据的处理与分析。
简介
大数据的核心在于对大规模数据进行收集、存储、处理及可视化分析,各企业将能够借此从中提取有价值信息,立足此类
信息汇总重要商业洞察结论并借此作出理想的业务决策,且整个流程可以快速方式完成。操作数据分析平台的最大挑战包
括安装及运营管理、根据实际负载动态分配数据处理容量以及对来自多个来源的数据进行聚合以待后续分析。开源 Apache
Hadoop 及其工具生态系统能够有效解决上述难题,这是因为 Hadoop 能够横向扩展以满足持续增长的数据集合的具体需求,
同时在同一环境下处理非结构化与结构化数据。
Amazon Elastic MapReduce(简称 Amazon EMR)能够极大简化 Hadoop 及其它相关大数据应用程序在 AWS 之上的运行流程。
其消除了管理 Hadoop 安装工作所必需的成本与复杂性因素。时至今日,大家已经能够在数分钟之内立足 AWS 环境运行一
套性能优化型 Hadoop 集群,同时在无需承担任何前期硬件资本支出的前提下获得最新高性能计算硬件与网络资源。这意
味着如果大家需要快速为问题找到答案,则可立即对集群规模进行向上扩展,从而更快完成数据处理。大家能够利用 Hadoop
的 MapReduce 架构将计算工作分发至运行在 AWS 云内的虚拟服务器集群当中,从而实现大规模数据分析与处理。
另外,要对大规模数据进行分析与处理,我们还需要面对数据收集、迁移与优化等一系列挑战。
图一:数据处理流程
本份白皮书解释了将数据迁移至 AWS; 数据收集、压缩与聚合相关策略; 以及数据处理所需 Amazon EMR 集群的常见设置
与配置架构模式等方面的最佳实践。其中亦将提供一系列示例,用于解释如何利用保留与现货实例等 Amazon EC2 购买
选项实现成本优化。本份白皮书假定大家已经对 Amazon EMR 及 Apache Hadoop 的相关概述有所了解且具备一定实践经
验。欲了解更多与 Amazon EMR 相关的基础信息,请参阅: Amazon EMR 开发者指南。1 欲了解更多与 Hadoop 相关的基
础信息,请参阅: Hadoop: 终极指南。2
将数据迁移至 AWS
大家可以采取多种方法将大规模数据由当前存储体系迁移至 Amazon Simple Storage Service(即 Amazon 简单存储服务,
简称 Amazon S3)当中,或者将其从 Amazon S3 迁移至 Amazon EMR 以及 Hadoop 分布式文件系统(简称 HDFS)处。不
过在处理这类工作时,最重要的是使用符合战略要求的数据传输带宽。在经过适当优化的情况下,在一天之内上传数 TB
Amazon Web Services – Amazon EMR 相关最佳实践 2013 年 8 月
The page 4 / 33
数据是完全可行的。为了达到此类可观的数据通量水平,大家可以立足多套客户端将数据以并发方式上传至 AWS,其中
各客户端皆使用多线程上传或者分段上传方式以进一步提升并发效果。大家可以调整 windows scaling3以及 selective
acknowledgement4等 TCP 设置以额外强化数据吞吐能力。以下各场景解释了三种由当前本地存储位置(即数据中心)面
向 AWS 的数据迁移优化途径,其将充分利用您的现有可用传输通量。
场景一:将大规模数据由 HDFS(即数据中心)迁移至 Amazon S3
大家可以利用两款工具——S3DistCp 与 DistCp——协助将存储在本地(数据中心)HDFS 内的数据迁移至 Amazon S3。
Amazon S3 非常适合用于存储非结构化数据文件,因为其拥有极高持久性及众多企业级功能,其中包括安全性与生命周
期管理等机制。
使用 S3DistCp
S3DistCp 是一项 DistCp 扩展方案,专门针对 AWS 协作进行了优化——特别是面向 Amazon S3。通过将 S3DistCp 添加为任
务流程中的一环,大家可以更为高效地将大规模数据往来迁移于 Amazon S3 与 HDFS 之间,以待 EMR 集群随后对其进行
处理。大家也可以利用 S3DistCp 在各 Amazon S3 存储桶或者由 DHFS 指向 Amazon S3 进行数据复制。
S3DistCp 利用分布式映射-规约任务进行数据复制,这一点与 DistCp 基本一致。S3DistCp 运行映射器以编译一份需要复制
至目的地处的文件列表。一旦各映射器完成了文件列表编译工作,规约器即执行实现数据复制。S3DistCp 相较于 DistCp
的优化之处在于,其能够利用规约器运行多个 HTTP 上传线程,从而以并发方式进行文件上传。
为了说明 S3DistCp 的实现优势,我们对 S3DistCp 与 DIstCp 进行了平行比较。在本次测试中,我们将运行在弗吉尼亚州
服务区 Amazon 弹性计算云(即 EC2)实例之上的 Hadoop 集群内的 50 GB 数据复制至位于俄勒冈州服务区的某 Amazon S3
存储桶当中。本次测试显示出 S3DistCp 与 DIstCp 存在比较明显的性能差异,但大家的实际测试结果可能有所不同。
|