失效链接处理 |
Apache Hadoop面试题 PDF 下载
相关截图:
主要内容:
1. 启动Hadoop集群会分别启动哪些进程,各⾃的作⽤
NameNode:
维护⽂件系统树及整棵树内所有的⽂件和⽬录。这些信息永久保存在本地磁盘的两个⽂件中:命名空间
镜像⽂件、编辑⽇志⽂件
记录每个⽂件中各个块所在的数据节点信息,这些信息在内存中保存,每次启动系统时重建这些信息
负责响应客户端的 数据块位置请求 。也就是客户端想存数据,应该往哪些节点的哪些块存;客户端想
取数据,应该到哪些节点取
接受记录在数据存取过程中,datanode节点报告过来的故障、损坏信息
SecondaryNameNode(⾮HA模式):
实现namenode容错的⼀种机制。定期合并编辑⽇志与命名空间镜像,当namenode挂掉时,可通过⼀
定步骤进⾏上顶。(注意 并不是NameNode的备⽤节点)
DataNode:
根据需要存取并检索数据块
定期向namenode发送其存储的数据块列表
ResourceManager:
负责Job的调度,将⼀个任务与⼀个NodeManager相匹配。也就是将⼀个MapReduce之类的任务分配给
⼀个从节点的NodeManager来执⾏。
NodeManager:
运⾏ResourceManager分配的任务,同时将任务进度向application master报告
JournalNode(HA下启⽤):
⾼可⽤情况下存放namenode的editlog⽂件
2. Hadoop1.x的缺点
1. JobTracker存在单点故障的隐患
2. 任务调度和资源管理全部是JobTracker来完成,单点负担过重
3. TaskTracker以Map/Reduce数量表示资源太过简单
4. TaskTracker 分Map Slot 和 Reduce Slot, 如果任务只需要map任务可能会造成资源浪费
3. Hadoop1.x 和Hadoop 2.x 的区别
1. 资源调度⽅式的改变
在1.x, 使⽤Jobtracker负责任务调度和资源管理,单点负担过重,在2.x中,新增了yarn作为集群的调度⼯具.在
yarn中,使⽤ResourceManager进⾏ 资源管理, 单独开启⼀个Container作为ApplicationMaster来进⾏任务管
理.
2. HA模式
在1.x中没有HA模式,集群中只有⼀个NameNode,⽽在2.x中可以启⽤HA模式,存在⼀个Active NameNode 和
Standby NameNode.
3. HDFS FederationHadoop 2.0中对HDFS进⾏了改进,使NameNode可以横向扩展成多个,每个NameNode分管⼀部分⽬录,
进⽽产⽣了HDFS Federation,该机制的引⼊不仅增强了HDFS的扩展性,也使HDFS具备了隔离性
|