失效链接处理 |
最详细的伪分布模式Hadoop安装记录 PDF 下载
本站整理下载:
提取码:n3vc
相关截图:
主要内容:
一、 Hadoop 安装(伪分布式)
说明:操作系统 CentOS5.5
1. JDK 安装
下载: jdk-6u21-linux-i586.bin
mkdir /usr/java
2. 创建 hadoop 用户
groupadd hadoop
useradd -d /hadoop -g hadoop -m hadoop
设置 hadoop 用户密码: passwd hadoop
3. 生成 SSH 秘钥对
su – hadoop
ssh-keygen -t rsa
cp id_rsa.pub authorized_keys
分布式部署,必须把各个节点的 authorized_keys 的内容互相拷贝加入到对方的此文件中,然后就可以免密码彼此 ssh
连入,具体用文件 cat 操作,所有节点的 authorized_keys,即包含了各自节点生成的 rsa.pub(authorized_keys)内容
合并一个 authorized_keys 后拷贝到所有节点
如果无法连接
启动 ssh 服务: /etc/init.d/sshd restart (status 可以看状态)
4. 安装及配置 hadoop
解压 hadoop:
配置 hadoop-env.sh 文件(/hadoop/hadoop-0.20.2/conf )
配置 core-site.xml (/hadoop/hadoop-0.20.2/conf )
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
配置 hdfs-site.xml(/hadoop/hadoop-0.20.2/conf )
<property>
<name>dfs.data.dir</name>
<value>/hadoop/hadoop-0.20.2/hdfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
配置 mapred-site.xml(/hadoop/hadoop-0.20.2/conf )
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
5. 格式化分布式文件系统
./hadoop namenode –format
6. 启动 hadoop 守护进程
hadoop 状态监控:
1. http://192.168.1.128:50070/dfshealth.jsp (namenode 节点)
2. ./hadoop dfsadmin –report
3. http://192.168.1.128:50030/jobtracker.jsp 50030 端口,监控 jobtracker
更换 IP 需要做什么?
如果 master 或 slave 的 IP 换了,需要做如下操作:
1、 清空 Hadoop 临时目录 /home/hadoop/tmp
2、 重新执行 hadoop namenode –format 格式化 HDFS。
后果,HDFS 上的目录文件会丢失
二、 分布式文件系统 HDFS
把文件存储到 HDFS 系统
先创建一个 input 目录和两个文本文件:
-put 命令 ,把刚才创建的 Input 目录下的所有文件加载到 hdfs 的 in 目录下
运行作业:运行 jar 包里的 wordcount 程序,原始文件目录在 in,输出结果在 out 目录
bin/hadoop jar hadoop-0.20.2-examples.jar wordcount in out
|