失效链接处理 |
大数据学习总结文档 PDF 下载
本站整理下载:
相关截图:
主要内容:
2.1HDFS是什么
分布式文件存储系统HDFS(Hadoop Distributed File System)主要解决大数据的存储问题。
HDFS的应用已经非常成熟非常多,如百度网盘、360云盘、腾讯微云、阿里云。
2.2HDFS的优缺点()
2.2.1优点
分布式的特性:
①适合大数据处理:GB、TB、甚至PB级别以上的数据
②百万规模以上的文件数量:10K+节点
③适合批处理:移动计算而非数据(MapReduce),数据位置暴露给计算框架
自身特性:
①可构建在廉价的机器上
②高可靠性:通过多副本提高
③高容错性:数据自动保存多个副本,副本丢失后,自动恢复,提供了恢复机制
2.2.2缺点
①低延迟高数据吞吐访问问题:比如不支持毫秒级,吞吐量大但有限制于其延迟(服务器 网络延迟、磁盘延迟)
②小文件存取占用NameNode大量内存(寻到时间超过读取时间99%)
③不支持文件修改(默认):一个文件只能有一个写者。仅支持append不支持修改(其实本身是支持的,太麻烦,主要为了空间换时间,节约成本)
2.3HDFS架构图(1.0)()
2.4HDFS的功能模块及原理详解()
2.4.1HDFS数据存储单元(block)
文件被线性切分成固定大小的数据块block:
·通过偏移量offset(单位:byte)标记
·默认数据块大小为64mb(hadoop1.0),可自定义设置(hadoop2.0默认128mb)
·若文件大小不到64mb,则单独存为一个block
一个文件的存储方式:
·切分成若干个block,存储到不同节点上
·默认每个block都有2个副本,共3个副本
·副本数不大于节点数
Block大小和副本数通过client端上传文件时设置,文件上传成功后副本数可以变更,block size大小不可变更。
|