失效链接处理 |
基于Hadoop平台的路由日志分析与筛选 PDF 下载
本站整理下载:
相关截图:
主要内容:
第二章 关于Hadoop的介绍及发展
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序.
2.1分布式文件系统
HDFS是 Hadoop 中数据存储管理的基础。它具有高吞吐率展性和高可靠性等特点,为海量数据存储提供了良好的保障和便利,非常适合大规模数据集上的应用。其体系结构如图 1 所示。
图1 HDFS框架体系
HDFS 采用 master / slave 架构。一个 HDFS 集群由一个 Name Node 和多个 Data Node组成。其中Name No-de 作为主服务器,负责管理文件系统的命名空间和客户端对文件的访问。集群中的 Data Node 管理它所在节点上的数据存储。HDFS 对外公开文件系统的命名空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成若干个数据块( Block) ,这些Block 存储在一组 Data Node 上。Name Node 执行文件系统的命名空间操作并负责确定 Block 到具体 DataNode 节点的映射。Data Node 负责处理文件系统的读写请求,在 Name Node 的统一调度下进行 Block 的创建、复制和删除。
|