Hadoop配置datanode
2014-09-04 16:49
225 查看
配置完成之后才想起来要写个总结,没有办法及时配图,下次配置的时候补上。
配置时参考了 http://blog.csdn.net/hguisu/article/details/7237395 很详细,怒赞加顶。
配置前需要确定本机的ip地址。本人是在ubuntu12.04下配置的,在12.10下配的时候,遇见了文件源数据不全,无法配置ssh的问题,希望有解决该问题的同学提供方法。
配置hadoop的Datanode大概分为3步,配置java,配置ssh,配置hadoop,三个情况。需要再次强调,本文只是针对在已有集群在添加datanode的情况,如果要从namenode开始配置需要参考上面提供的ip。
1.建立用户。
首先需要将namenode里的 /etc/hosts 添加datanode的名称和ip。然后拷贝到datanode下。
远程namenode ssh namenode@ip
scp /etc/hosts datanode@ip /etc/hosts
然后创建用户
sudo useradd -m username // username表示新创建的用户命 -m 表示创建用户并在/home下创建一个与用户命相同的文件夹
passwd username 然后就需要你写密码了
2.创建java环境
如果不知道linux软件包中带的java版本,可以先输入jps查看。
sudo apt-get install openjdk-6-java 这样安装的jdk会存在 /usr下
在之后配置hadoop时,java目录就是 /usr
当然,你也可以安装自己的jdk
3. 配置ssh
可以先尝试用一下命令 sudo apt-get install ssh
如果报找不到 ssh的错误,可以先 sudo apt-get install openssh-client ,然后再 sudo apt-get install openssh-server
之后再sudo apt-get install ssh.
配置完成后,需要将namenode的密匙拷贝到datanode上。
拷贝之前,先要在用户目录下执行 ssh-keygen -r rsa 然后一路回车
然后在namenode的/.ssh目录下将密匙拷贝 scp authorize-key datanode@ip /home/username/.ssh/
配置ssh完成
4.配置hadoop
尽量让自己的hadoop文件路径和namenode相同,这样需要配置改动的地方就会少了很多。
在namenode下,scp -r hadoop datanode@ip /home/username/
如果一切都相同,那么就都ok。本人的java环境和namenode的不同,然后就只修改了java路径。Hadoop的环境变量是在/conf/hadoop-env.sh下配置。
5.启动hadoop
bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracer
若出现
15740 Jps
11383 DataNode
13632 TaskTracker
那么配置成功。
配置时的log文件存储在 hadoop/logs下,启动时的错误可以在这里看到。
本人在tasktracker时,出现的问题就是有存放mapper文件的文件夹已经存在,这个文件夹应该是需要在启动时自动生成,这个问题导致tasktracker无法启动。
配置时参考了 http://blog.csdn.net/hguisu/article/details/7237395 很详细,怒赞加顶。
配置前需要确定本机的ip地址。本人是在ubuntu12.04下配置的,在12.10下配的时候,遇见了文件源数据不全,无法配置ssh的问题,希望有解决该问题的同学提供方法。
配置hadoop的Datanode大概分为3步,配置java,配置ssh,配置hadoop,三个情况。需要再次强调,本文只是针对在已有集群在添加datanode的情况,如果要从namenode开始配置需要参考上面提供的ip。
1.建立用户。
首先需要将namenode里的 /etc/hosts 添加datanode的名称和ip。然后拷贝到datanode下。
远程namenode ssh namenode@ip
scp /etc/hosts datanode@ip /etc/hosts
然后创建用户
sudo useradd -m username // username表示新创建的用户命 -m 表示创建用户并在/home下创建一个与用户命相同的文件夹
passwd username 然后就需要你写密码了
2.创建java环境
如果不知道linux软件包中带的java版本,可以先输入jps查看。
sudo apt-get install openjdk-6-java 这样安装的jdk会存在 /usr下
在之后配置hadoop时,java目录就是 /usr
当然,你也可以安装自己的jdk
3. 配置ssh
可以先尝试用一下命令 sudo apt-get install ssh
如果报找不到 ssh的错误,可以先 sudo apt-get install openssh-client ,然后再 sudo apt-get install openssh-server
之后再sudo apt-get install ssh.
配置完成后,需要将namenode的密匙拷贝到datanode上。
拷贝之前,先要在用户目录下执行 ssh-keygen -r rsa 然后一路回车
然后在namenode的/.ssh目录下将密匙拷贝 scp authorize-key datanode@ip /home/username/.ssh/
配置ssh完成
4.配置hadoop
尽量让自己的hadoop文件路径和namenode相同,这样需要配置改动的地方就会少了很多。
在namenode下,scp -r hadoop datanode@ip /home/username/
如果一切都相同,那么就都ok。本人的java环境和namenode的不同,然后就只修改了java路径。Hadoop的环境变量是在/conf/hadoop-env.sh下配置。
5.启动hadoop
bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracer
若出现
15740 Jps
11383 DataNode
13632 TaskTracker
那么配置成功。
配置时的log文件存储在 hadoop/logs下,启动时的错误可以在这里看到。
本人在tasktracker时,出现的问题就是有存放mapper文件的文件夹已经存在,这个文件夹应该是需要在启动时自动生成,这个问题导致tasktracker无法启动。
相关文章推荐
- hadoop1.x配置 - 集群删除datanode
- hadoop大集群优化配置,datanode节点数量为100
- hadoop集群配置datanode无法启动的原因
- hadoop配置 - Datanode GC优化一则
- 在集群上安装Hadoop1.2.1,并配置好,启动hdfs后使用jps查看datanode,启动后过一会再看就消失了
- hadoop-HA集群搭建,启动DataNode,检测启动状态,执行HDFS命令,启动YARN,HDFS权限配置,C++客户端编程,常见错误
- Hadoop 2.2.0 在Red Hat Enterprise Linux 6.1 上的分布式配置(VMware虚拟机,1个namenode,2个datanode)
- Hadoop总结一:基础知识-Namenode,Datanode(非HA高可用性配置)
- hadoop集群的负载均衡配置与添加DataNode节点和TaskTracker节点
- hadoop配置新节点后,出现 org.apache.hadoop.hdfs.server.datanode.DataNode: java.io.IOException: Incompatible n
- Hadoop配置datanode无法连接到master
- hadoop集群配置datanode无法启动的原因
- hadoop配置好之后启服务,jps能看到datanode进程,可是后台的datanode日志有如下错误,且50070端口上也是没有活的节点
- Hadoop2.6 datanode配置在线更新
- hadoop 配置HA 重新格式化后 datanode 起不来
- hadoop配置完成后datanode没有启动
- Ubuntu 14.04下hadoop 2.2.0 伪分布环境配置datanode不能启动的解决办法
- hadoop配置好之后启服务,jps能看到datanode进程,可是后台的datanode日志有如下错误,且50070端口上也是没有活的节点
- 关于配置伪分布hadoop无法启动datanode的解决
- hadoop1.x配置 - 集群增加datanode