hadoop 自学指南一之安装hadoop
2015-09-05 20:11
543 查看
一、前言
a) 本人是菜鸟,不生产代码,大自然的搬运工。b)基础知识(hadoop 1.x,2.x有点区别)
NameNode HDFS 的守护程序 记录文件分割 内存I/O进行集中管理 Secondary NameNode 辅助名称节点 HDFS辅助后台 NameNode 的备用 DataNode 数据节点 具体的HDFS数据块 JobTracker 作业跟踪器 处理用户提交的作业 分割task 并分配节点 监控task 只有一个JobTracker 位于Master 节点 Master: NodeNode SecondaryNameNode JobTracker slave: DataNode TaskTracker TaskTracker 与DataNode 一起 管理task 与jobtracker交互 并行执行MapReduce
二、环境准备
a) Linux版本:Ubuntu14.04b) Vmware
c) secureCRT
d) 有志于大数据程序员(important)
三、源码准备
下载http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.2.1/Bin和源码包都下载下来
我比较注重第一手的资料,第一手的资料在那里,打开下载的hadoop 1.2.1
file:///H:/hadoop-1.2.1/docs/single_node_setup.html
四、相关的linux 配置与准备
a) 掌握必要的vim命令(很重要,不然你会有砸电脑的冲动,vim学习与指南)b) 准备两台虚拟机,安装配置jdk(最好是1.6版的)
小法的两台机器分别为hai,hai01(一般改为hadoop,名字修改在/etc/hostname),ip为192.168.100.150,192.168.100.151
i. 将jdk解压到/usr/目录下
tar -xzvf jdk-xxx /usr
ii. 配置jdk (新手用vi,可以有点困难,先看看vim学习与指南)
http://download.csdn.net/detail/ice_grey/9080357
sudo vi /etc/profile (技巧:先打:sh 回到shell cd 到java安装目录
例如:/usr/jdk1.7.xx 打pwd,这时候会显示java的目录 ,右键复制,按ctrl+d
回到vi界面,右键粘贴,这样避免了记忆出错)
c) 配置ssh 与rsa
原理不多说(非对称加密,公钥与私钥是一对,公钥给别人,别人用公钥加密后,自己用私钥可以解开)
生成密钥对 ssh -keygen -t rsa ls -al : authorized_keys id_rsa id_rsa.pub known_hosts 把公钥给别人改名为authorized_keys scp ./id_rsa.pub hai@192.168.1.100:/home/hai/.ssh/authorized_keys scp -r ./hadoop-1.1.2 hai@192.168.1.100:/home/hai/
最终的效果是:
在.ssh 目录下,authorized_keys
有别人的公钥 -》到别人免密码
有自己的公钥 -》到本地localhost免密码
最终的效果
五、配置hadoop
打开自带的doc,打开index点到Configuration ,里面分别介绍配置的几个文件conf/hadoop-env.sh
配置java_home和hadoop_classpath
根据自己的情况修改,myclass 文件夹没有
conf/core-site.xml
理伦上,上面那个配置就够了
conf/hdfs-site.xml
conf/mapred-site.xml
conf/master
指定master节点所在,根据自己的情况修改
执行格式化
bin/hadoop namenode -format
启动hadoop 集群
bin/start-all.sh
执行测试
jps
bin/hadoop jar hadoop-examples-1.2.1.jar pi 10 100
运行情况界面
http://192.168.100.150:50070/ http://192.168.100.150:50030/jobtracker.jsp jobtracker
代码:
hadoop-env.sh 建立java 环境,主要修改java home export JAVA_HOME=/usr/jdk1.7.0_60 core-site.xml 配置主机名和临时目录 <configuration> <property> b4f4 <name>fs.default.name</name> <value>hdfs://hai:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hai/hadoop-1.2.1/tmp</value> </property> </configuration> hdfs-site.xml 配置hdsf的复制因子,有多少个节点就指定几个 <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> mapred-site.xml 配置jobtrackr 监听地址和端口 <configuration> <property> <name>mapred.job.tracker</name> <value>hai:9001</value> </property> </configuration> master 配置那个节点充当master hai slaves 配置那个节点充当slaves hai01 /etc/hosts 修改host文件: 192.168.100.150 hai 192.168.100.151 hai01 4、初始化 bin/hadoop namenode -format 格式化namenode bin/start-all.sh 启动 /usr/jdk1.7.0_60/bin/jps 检查jps 进程
参巧:
hadoop 实战第2版
hadoop 权威指南第二版
附:别人总结的安装指南
http://download.csdn.net/detail/ice_grey/9080497
相关文章推荐
- 详解HDFS Short Circuit Local Reads
- Hadoop_2.1.0 MapReduce序列图
- 使用Hadoop搭建现代电信企业架构
- 单机版搭建Hadoop环境图文教程详解
- hadoop常见错误以及处理方法详解
- hadoop 单机安装配置教程
- hadoop的hdfs文件操作实现上传文件到hdfs
- hadoop实现grep示例分享
- Apache Hadoop版本详解
- linux下搭建hadoop环境步骤分享
- hadoop client与datanode的通信协议分析
- hadoop中一些常用的命令介绍
- Hadoop单机版和全分布式(集群)安装
- 用PHP和Shell写Hadoop的MapReduce程序
- hadoop map-reduce中的文件并发操作
- Hadoop1.2中配置伪分布式的实例
- java结合HADOOP集群文件上传下载
- 用python + hadoop streaming 分布式编程(一) -- 原理介绍,样例程序与本地调试
- Hadoop安装感悟
- hadoop安装lzo