ubuntu 12.04 + hadoop 2.2 单机部署
2013-12-16 16:13
519 查看
主要参考文献2
一、Hadoop目录结构[3]
Hadoop2.2的目录结构很像Linux操作系统的目录结构,各个目录的作用如下:
(1) 在新版本的hadoop中,由于使用hadoop的用户被分成了不同的用户组,就像Linux一样。因此执行文件和脚本被分成了两部分,分别存放在bin和sbin目录下。存放在sbin目录下的是只有超级用户(superuser)才有权限执行的脚本,比如start-dfs.sh, start-yarn.sh, stop-dfs.sh, stop-yarn.sh等,这些是对整个集群的操作,只有superuser才有权限。而存放在bin目录下的脚本所有的用户都有执行的权限,这里的脚本一般都是对集群中具体的文件或者block pool操作的命令,如上传文件,查看集群的使用情况等。
(2) etc目录下存放的就是在0.23.0版本以前conf目录下存放的东西,就是对common, hdfs, mapreduce(yarn)的配置信息。
(3) include和lib目录下,存放的是使用Hadoop的C语言接口开发用到的头文件和链接的库。
(4) libexec目录下存放的是hadoop的配置脚本,具体怎么用到的这些脚本,我也还没跟踪到。目前我就是在其中hadoop-config.sh文件中增加了JAVA_HOME环境变量。
(5) logs目录在download到的安装包里是没有的,如果你安装并运行了hadoop,就会生成logs 这个目录和里面的日志。
(6) share这个文件夹存放的是doc文档和最重要的Hadoop源代码编译生成的jar包文件,就是运行hadoop所用到的所有的jar包。
二、修改相关配置文件
~/.bashrc
etc/hadoop目录中编辑 core-site.xml
etc/hadoop目录中编辑hdfs-site.xml
/etc/hadoop
使用以下内容创建一个文件mapred-site.xml
编辑yarn-site.xml
/etc/hadoop
目录中编辑hadoop-env.sh
三、启动过程
首先格式化 namenode,输入命令 hdfs namenode –format
然后开始守护进程
hadoop-daemon.sh start namenode 和 hadoop-daemon.sh start datanode或(可以同时启动:start-dfs.sh);然后,开始 Yarn 守护进程运行 yarn-daemon.sh start resourcemanager和 yarn-daemon.sh start nodemanager(或同时启动: start-yarn.sh)
浏览UI,打开
localhost:8088 可以查看资源管理页面
下载Hadoop-2.2.0二进制包 http://www.eng.lsu.edu/mirrors/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0.tar.gz
参考文献
1.http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/SingleCluster.html
2.http://www.cnblogs.com/aniuer/archive/2012/07/16/2594448.html
3.http://www.cnblogs.com/tangtianfly/archive/2012/04/11/2441760.html
一、Hadoop目录结构[3]
Hadoop2.2的目录结构很像Linux操作系统的目录结构,各个目录的作用如下:
(1) 在新版本的hadoop中,由于使用hadoop的用户被分成了不同的用户组,就像Linux一样。因此执行文件和脚本被分成了两部分,分别存放在bin和sbin目录下。存放在sbin目录下的是只有超级用户(superuser)才有权限执行的脚本,比如start-dfs.sh, start-yarn.sh, stop-dfs.sh, stop-yarn.sh等,这些是对整个集群的操作,只有superuser才有权限。而存放在bin目录下的脚本所有的用户都有执行的权限,这里的脚本一般都是对集群中具体的文件或者block pool操作的命令,如上传文件,查看集群的使用情况等。
(2) etc目录下存放的就是在0.23.0版本以前conf目录下存放的东西,就是对common, hdfs, mapreduce(yarn)的配置信息。
(3) include和lib目录下,存放的是使用Hadoop的C语言接口开发用到的头文件和链接的库。
(4) libexec目录下存放的是hadoop的配置脚本,具体怎么用到的这些脚本,我也还没跟踪到。目前我就是在其中hadoop-config.sh文件中增加了JAVA_HOME环境变量。
(5) logs目录在download到的安装包里是没有的,如果你安装并运行了hadoop,就会生成logs 这个目录和里面的日志。
(6) share这个文件夹存放的是doc文档和最重要的Hadoop源代码编译生成的jar包文件,就是运行hadoop所用到的所有的jar包。
二、修改相关配置文件
~/.bashrc
etc/hadoop目录中编辑 core-site.xml
<configuration> <property> <name>io.native.lib.available</name> <value>true</value> </property> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> <description>The name of the default file system.Either the literal string "local" or a host:port for NDFS.</description> <final>true</final> </property> </configuration>
etc/hadoop目录中编辑hdfs-site.xml
<configuration> <property> <name>dfs.namenode.name.dir</name> <value>/tmp/hadoop/dfs/name</value> <description>Determines where on the local filesystem the DFS name node should store the name table.If this is a comma-delimited list of directories,then name table is replicated in all of the directories,for redundancy.</description> <final>true</final> </property> <property> <name>dfs.datanode.data.dir</name> <value>/tmp/hadoop/dfs/data</value> <description>Determines where on the local filesystem an DFS data node should store its blocks.If this is a comma-delimited list of directories,then data will be stored in all named directories,typically on different devices.Directories that do not exist are ignored. </description> <final>true</final> </property> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permission</name> <value>false</value> </property> </configuration>
/etc/hadoop
使用以下内容创建一个文件mapred-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.job.tracker</name> <value>hdfs://localhost:9001</value> <final>true</final> </property> <property> <name>mapreduce.map.memory.mb</name> <value>1536</value> </property> <property> <name>mapreduce.map.java.opts</name> <value>-Xmx1024M</value> </property> <property> <name>mapreduce.reduce.memory.mb</name> <value>3072</value> </property> <property> <name>mapreduce.reduce.java.opts</name> <value>-Xmx2560M</value> </property> <property> <name>mapreduce.task.io.sort.mb</name> <value>512</value> </property> <property> <name>mapreduce.task.io.sort.factor</name> <value>100</value> </property> <property> <name>mapreduce.reduce.shuffle.parallelcopies</name> <value>50</value> </property> <property> <name>mapred.system.dir</name> <value>/tmp/hadoop/mapred/system</value> <final>true</final> </property> <property> <name>mapred.local.dir</name> <value>/tmp/hadoop/mapred/local</value> <final>true</final> </property> </configuration>
编辑yarn-site.xml
<configuration> <property> <name>yarn.resourcemanager.address</name> <value>localhost:8080</value> </property> <property> 4000 <name>yarn.resourcemanager.scheduler.address</name> <value>localhost:8081</value> </property> <property> <name>yarn.resourcemanager.resource-tracker.address</name> <value>localhost:8082</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
/etc/hadoop
目录中编辑hadoop-env.sh
export HADOOP_FREFIX=/home/hadoop/hadoop-2.2.0 export HADOOP_COMMON_HOME=${HADOOP_FREFIX} export HADOOP_HDFS_HOME=${HADOOP_FREFIX} export PATH=$PATH:$HADOOP_FREFIX/bin export PATH=$PATH:$HADOOP_FREFIX/sbin export HADOOP_MAPRED_HOME=${HADOOP_FREFIX} export YARN_HOME=${HADOOP_FREFIX} export HADOOP_CONF_HOME=${HADOOP_FREFIX}/etc/hadoop export YARN_CONF_DIR=${HADOOP_FREFIX}/etc/hadoop export JAVA_HOME=/usr/lib/jvm/java-1.6.0-openjdk-amd64
三、启动过程
首先格式化 namenode,输入命令 hdfs namenode –format
然后开始守护进程
hadoop-daemon.sh start namenode 和 hadoop-daemon.sh start datanode或(可以同时启动:start-dfs.sh);然后,开始 Yarn 守护进程运行 yarn-daemon.sh start resourcemanager和 yarn-daemon.sh start nodemanager(或同时启动: start-yarn.sh)
浏览UI,打开
localhost:8088 可以查看资源管理页面
下载Hadoop-2.2.0二进制包 http://www.eng.lsu.edu/mirrors/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0.tar.gz
参考文献
1.http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-common/SingleCluster.html
2.http://www.cnblogs.com/aniuer/archive/2012/07/16/2594448.html
3.http://www.cnblogs.com/tangtianfly/archive/2012/04/11/2441760.html
相关文章推荐
- ubuntu 12.04 hadoop 单机模式平台搭建
- Ubuntu下Hadoop单机部署及分布式集群部署
- 【转】在ubuntu部署hadoop之单机模式
- 如何在Centos6.5下部署hadoop2.2单机伪分布式(二)
- Ubuntu 12.04搭建hadoop2.0.4单机版环境
- 在ubuntu部署hadoop之单机模式与伪分布式模式部署
- Hadoop单机环境安装配置(Ubuntu 12.04)
- Hadoop —— Ubuntu单机环境部署Hadoop1.2.1
- Cloudera Hadoop集群安装部署,cdh3u6,Ubuntu12.04
- 在ubuntu部署hadoop之单机模式与伪分布式模式部署
- 在ubuntu部署hadoop之单机模式与伪分布式模式部署
- ubuntu server 12 上搭建 hadoop2.2 单机伪分布式
- 在ubuntu部署单机和伪分布式hadoop
- ubuntu部署hadoop之单机模式与伪分布式模式(个人笔记)
- ubuntu部署hadoop2.7.1之单机模式与伪分布式模式
- hadoop实战二 单机部署2
- 在 Ubuntu 12.04 Server 上安装部署 Ruby on Rails 应用
- OneStack:Ubuntu 12.04 上一键自动部署 OpenStack
- Ubuntu15 中安装hadoop2.7单机模式 (图文详细步骤)
- OneStack:Ubuntu 12.04 (或11.10) 一键部署安装OpenStack云计算平台 .