您的位置:首页 > 运维架构

hadoop 自学指南一之安装hadoop

2015-09-05 20:11 543 查看

一、前言

a) 本人是菜鸟,不生产代码,大自然的搬运工。

b)基础知识(hadoop 1.x,2.x有点区别)

NameNode
HDFS 的守护程序
记录文件分割
内存I/O进行集中管理
Secondary NameNode 辅助名称节点
HDFS辅助后台
NameNode 的备用
DataNode 数据节点
具体的HDFS数据块
JobTracker  作业跟踪器
处理用户提交的作业
分割task 并分配节点
监控task
只有一个JobTracker 位于Master 节点

Master: NodeNode SecondaryNameNode JobTracker
slave: DataNode TaskTracker
TaskTracker
与DataNode 一起
管理task
与jobtracker交互
并行执行MapReduce


二、环境准备

a) Linux版本:Ubuntu14.04

b) Vmware

c) secureCRT

d) 有志于大数据程序员(important)

三、源码准备

下载http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/

Bin和源码包都下载下来



我比较注重第一手的资料,第一手的资料在那里,打开下载的hadoop 1.2.1

file:///H:/hadoop-1.2.1/docs/single_node_setup.html

 

四、相关的linux 配置与准备

a) 掌握必要的vim命令(很重要,不然你会有砸电脑的冲动,vim学习与指南)

b) 准备两台虚拟机,安装配置jdk(最好是1.6版的)

小法的两台机器分别为hai,hai01(一般改为hadoop,名字修改在/etc/hostname),ip为192.168.100.150,192.168.100.151

i. 将jdk解压到/usr/目录下 

            tar -xzvf  jdk-xxx  /usr

ii. 配置jdk  (新手用vi,可以有点困难,先看看vim学习与指南)
http://download.csdn.net/detail/ice_grey/9080357
sudo vi /etc/profile    (技巧:先打:sh  回到shell  cd 到java安装目录

例如:/usr/jdk1.7.xx  打pwd,这时候会显示java的目录 ,右键复制,按ctrl+d

回到vi界面,右键粘贴,这样避免了记忆出错)

 

c) 配置ssh 与rsa

原理不多说(非对称加密,公钥与私钥是一对,公钥给别人,别人用公钥加密后,自己用私钥可以解开)

生成密钥对
ssh -keygen -t rsa
ls -al  : authorized_keys  id_rsa  id_rsa.pub known_hosts
把公钥给别人改名为authorized_keys
scp ./id_rsa.pub hai@192.168.1.100:/home/hai/.ssh/authorized_keys

scp -r ./hadoop-1.1.2 hai@192.168.1.100:/home/hai/


最终的效果是:

在.ssh 目录下,authorized_keys

有别人的公钥  -》到别人免密码

有自己的公钥   -》到本地localhost免密码

最终的效果



五、配置hadoop 

打开自带的doc,打开index点到Configuration ,里面分别介绍配置的几个文件

conf/hadoop-env.sh

配置java_home和hadoop_classpath



根据自己的情况修改,myclass 文件夹没有

conf/core-site.xml



理伦上,上面那个配置就够了

conf/hdfs-site.xml



conf/mapred-site.xml



 conf/master

指定master节点所在,根据自己的情况修改

执行格式化

bin/hadoop namenode -format

启动hadoop 集群

bin/start-all.sh

执行测试

jps

bin/hadoop jar hadoop-examples-1.2.1.jar pi 10 100

运行情况界面

http://192.168.100.150:50070/ http://192.168.100.150:50030/jobtracker.jsp     jobtracker


 代码:

hadoop-env.sh      建立java 环境,主要修改java home  export JAVA_HOME=/usr/jdk1.7.0_60
core-site.xml      配置主机名和临时目录
<configuration>
<property>

b4f4
<name>fs.default.name</name>
<value>hdfs://hai:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/home/hai/hadoop-1.2.1/tmp</value>
</property>

</configuration>
hdfs-site.xml       配置hdsf的复制因子,有多少个节点就指定几个

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

</configuration>
mapred-site.xml     配置jobtrackr 监听地址和端口
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hai:9001</value>
</property>

</configuration>

master     配置那个节点充当master
hai
slaves     配置那个节点充当slaves
hai01
/etc/hosts  修改host文件:
192.168.100.150 hai
192.168.100.151 hai01

4、初始化
bin/hadoop namenode -format   格式化namenode
bin/start-all.sh      启动

/usr/jdk1.7.0_60/bin/jps   检查jps 进程


参巧:

hadoop 实战第2版

hadoop 权威指南第二版

附:别人总结的安装指南
http://download.csdn.net/detail/ice_grey/9080497
 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  hadoop