大数据学习总结文档 PDF 下载_Java知识分享网-免费Java资源下载

大数据学习总结文档 PDF 下载

本站整理下载：

链接：https://pan.baidu.com/s/1_IzIatIPgoKQXxh6SfGWQQ

提取码：bavy

相关截图：

主要内容：

2.1HDFS是什么

分布式文件存储系统HDFS（Hadoop Distributed File System）主要解决大数据的存储问题。

HDFS的应用已经非常成熟非常多，如百度网盘、360云盘、腾讯微云、阿里云。

2.2HDFS的优缺点（）

2.2.1优点

分布式的特性：

①适合大数据处理：GB、TB、甚至PB级别以上的数据

②百万规模以上的文件数量：10K+节点

③适合批处理：移动计算而非数据（MapReduce），数据位置暴露给计算框架

自身特性：

①可构建在廉价的机器上

②高可靠性：通过多副本提高

③高容错性：数据自动保存多个副本，副本丢失后，自动恢复，提供了恢复机制

2.2.2缺点

①低延迟高数据吞吐访问问题：比如不支持毫秒级，吞吐量大但有限制于其延迟（服务器网络延迟、磁盘延迟）

②小文件存取占用NameNode大量内存（寻到时间超过读取时间99%）

③不支持文件修改（默认）：一个文件只能有一个写者。仅支持append不支持修改（其实本身是支持的，太麻烦，主要为了空间换时间，节约成本）

2.3HDFS架构图（1.0）（）

2.4HDFS的功能模块及原理详解（）

2.4.1HDFS数据存储单元（block）

文件被线性切分成固定大小的数据块block：

·通过偏移量offset（单位：byte）标记

·默认数据块大小为64mb（hadoop1.0），可自定义设置（hadoop2.0默认128mb）

·若文件大小不到64mb，则单独存为一个block

一个文件的存储方式：

·切分成若干个block，存储到不同节点上

·默认每个block都有2个副本，共3个副本

·副本数不大于节点数

Block大小和副本数通过client端上传文件时设置，文件上传成功后副本数可以变更，block size大小不可变更。

IDEA永久激活