失效链接处理 |
Hadoop技术选型分析报告V4.0 PDF 下载
本站整理下载:
提取码:osui
相关截图:
![]()
主要内容:
一、概述
Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在
不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高
速 运 算 和 存 储 。 Hadoop 实现了一个 分 布 式 文 件 系 统
(HadoopDistributedFileSystem),简称 HDFS。HDFS 有高容错性的特点,并且
设 计 用 来 部 署 在 低 廉 的 ( low-cost ) 硬 件 上 ; 而 且 它 提 供 高 吞 吐 量
(highthroughput)来访问应用程序的数据,适合那些有着超大数据集
(largedataset)的应用程序。HDFS 放宽了(relax)POSIX 的要求,可以以流
的形式访问(streamingaccess)文件系统中的数据。Hadoop 的框架最核心的设
计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而 MapReduce 则
为海量的数据提供了计算。
3 / 235
二、选型基本原则
根据市场上目前比较流行的几款 Hadoop 产品综合分析,从部署的便捷性、
功能、性能及成本等方面综合考量,推荐使用 CDH 与 HDP。然后再根据我们具体
的使用场景来进行选择,如果我们追求功能全面与部署案例参考推荐使用 CDH,
因为 CDH 目前是市场上功能最全、部署案例最多的一款产品,如果我们追求部署
快捷,易上手使用推荐使用 HDP,因为 HDP 是迄今为止 100%纯开源 ApacheHadoop
的唯一提供商并且是第一家使用了 ApacheHCatalog 的元数据服务特性的提供商。
并且,它们的 Stinger 开创性地极大地优化了 Hive 项目。Hortonworks 为入门
提供了一个非常好的,易于使用的沙盒。
接下来我们的分析就主要围绕 CDH 与 HDP 展开。 三、核心概念(Hadoop 生态系统组件)
现在先让我们了解一下 Hadoop 生态系统的构成,主要认识 Hadoop 生态系统
都包括那些子项目,每个项目都有什么特点,每个项目都能解决哪一类问题,能
回答这三个问题就可以了(本段属于热身...重在理解 Hadoop 生态系统组成,现
状,发展,将来)。 1、HDFS(分布式文件系统)
HDFS(HadoopDistributedFileSystem,Hadoop 分布式文件系统)是 Hadoop
体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,
用于在低成本的通用硬件上运行。HDFS 简化了文件的一致性模型,通过流式数
据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
1、适用、不适用的场景
HDFS 特点: 高容错性、可构建在廉价机器上
适合批处理
适合大数据处理
流式文件访问
HDFS 局限: 不支持低延迟访问
不适合小文件存储
不支持并发写入
不支持修改
|