| 失效链接处理 | 
| 大数据学习总结文档  PDF 下载 
	本站整理下载: 
	相关截图:  
	主要内容: 
		2.1HDFS是什么 
		分布式文件存储系统HDFS(Hadoop Distributed File System)主要解决大数据的存储问题。 
		HDFS的应用已经非常成熟非常多,如百度网盘、360云盘、腾讯微云、阿里云。 
		2.2HDFS的优缺点() 
		2.2.1优点  
		分布式的特性: 
		①适合大数据处理:GB、TB、甚至PB级别以上的数据 
		②百万规模以上的文件数量:10K+节点 
		③适合批处理:移动计算而非数据(MapReduce),数据位置暴露给计算框架 
		自身特性: 
		①可构建在廉价的机器上 
		②高可靠性:通过多副本提高 
		③高容错性:数据自动保存多个副本,副本丢失后,自动恢复,提供了恢复机制 
		2.2.2缺点 
		①低延迟高数据吞吐访问问题:比如不支持毫秒级,吞吐量大但有限制于其延迟(服务器 网络延迟、磁盘延迟) 
		②小文件存取占用NameNode大量内存(寻到时间超过读取时间99%) 
		③不支持文件修改(默认):一个文件只能有一个写者。仅支持append不支持修改(其实本身是支持的,太麻烦,主要为了空间换时间,节约成本) 
		2.3HDFS架构图(1.0)() 
		2.4HDFS的功能模块及原理详解() 
		2.4.1HDFS数据存储单元(block) 
		文件被线性切分成固定大小的数据块block: 
		·通过偏移量offset(单位:byte)标记 
		·默认数据块大小为64mb(hadoop1.0),可自定义设置(hadoop2.0默认128mb) 
		·若文件大小不到64mb,则单独存为一个block 
		一个文件的存储方式: 
		·切分成若干个block,存储到不同节点上 
		·默认每个block都有2个副本,共3个副本 
		·副本数不大于节点数 
		Block大小和副本数通过client端上传文件时设置,文件上传成功后副本数可以变更,block size大小不可变更。 | 



 
     苏公网安备 32061202001004号
苏公网安备 32061202001004号


 
    