您的位置:首页 > 运维架构 > Apache

如何在 CentOS 上安装 Apache Hadoop

2017-12-26 00:00 399 查看
ApacheHadoop软件库是一个框架,它允许使用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Apache™Hadoop®是可靠、可扩展、分布式计算的开源软件。

该项目包括以下模块:

HadoopCommon:支持其他Hadoop模块的常用工具。

Hadoop分布式文件系统(HDFS™):分布式文件系统,可提供对应用程序数据的高吞吐量访问支持。

HadoopYARN:作业调度和集群资源管理框架。

HadoopMapReduce:一个基于YARN的大型数据集并行处理系统。

本文将帮助你逐步在CentOS上安装hadoop并配置单节点hadoop集群。

安装Java

在安装hadoop之前,请确保你的系统上安装了Java。使用此命令检查已安装Java的版本。



java-version

javaversion"1.7.0_75"

Java(TM)SERuntimeEnvironment(build1.7.0_75-b13)

JavaHotSpot(TM)64-BitServerVM(build24.75-b04,mixedmode)

要安装或更新Java,请参考下面逐步的说明。

第一步是从Oracle官方网站下载最新版本的java。



cd/opt/

wget--no-cookies--no-check-certificate--header"Cookie:gpw_e24=http%3A%2F%2Fwww.oracle.com%2F;oraclelicense=accept-securebackup-cookie""http://download.oracle.com/otn-pub/java/jdk/7u79-b15/jdk-7u79-linux-x64.tar.gz"

tarxzfjdk-7u79-linux-x64.tar.gz

需要设置使用更新版本的Java作为替代。使用以下命令来执行此操作。



cd/opt/jdk1.7.0_79/

alternatives--install/usr/bin/javajava/opt/jdk1.7.0_79/bin/java2

alternatives--configjava



Thereare3programswhichprovide'java'.

SelectionCommand

-----------------------------------------------

*1/opt/jdk1.7.0_60/bin/java

+2/opt/jdk1.7.0_72/bin/java

3/opt/jdk1.7.0_79/bin/java

Entertokeepthecurrentselection[+],ortypeselectionnumber:3[PressEnter]

现在你可能还需要使用alternatives命令设置javac和jar命令路径。



alternatives--install/usr/bin/jarjar/opt/jdk1.7.0_79/bin/jar2

alternatives--install/usr/bin/javacjavac/opt/jdk1.7.0_79/bin/javac2

alternatives--setjar/opt/jdk1.7.0_79/bin/jar

alternatives--setjavac/opt/jdk1.7.0_79/bin/javac

下一步是配置环境变量。使用以下命令正确设置这些变量。

设置JAVA_HOME变量:



exportJAVA_HOME=/opt/jdk1.7.0_79

设置JRE_HOME变量:



exportJRE_HOME=/opt/jdk1.7.0_79/jre

设置PATH变量:



exportPATH=$PATH:/opt/jdk1.7.0_79/bin:/opt/jdk1.7.0_79/jre/bin

安装ApacheHadoop

设置好java环境后。开始安装ApacheHadoop。

第一步是创建用于hadoop安装的系统用户帐户。



useraddhadoop

passwdhadoop

现在你需要配置用户hadoop的ssh密钥。使用以下命令启用无需密码的ssh登录。



su-hadoop

ssh-keygen-trsa

cat~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys

chmod0600~/.ssh/authorized_keys

exit

现在从官方网站hadoop.apache.org下载hadoop最新的可用版本。



cd~

wget'target='_blank'>http://apache.claz.org/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz[/code]
tarxzfhadoop-2.6.0.tar.gz

mvhadoop-2.6.0hadoop

下一步是设置hadoop使用的环境变量。

编辑~/.bashrc,并在文件末尾添加以下这些值。



exportHADOOP_HOME=/home/hadoop/hadoop

exportHADOOP_INSTALL=$HADOOP_HOME

exportHADOOP_MAPRED_HOME=$HADOOP_HOME

exportHADOOP_COMMON_HOME=$HADOOP_HOME

exportHADOOP_HDFS_HOME=$HADOOP_HOME

exportYARN_HOME=$HADOOP_HOME

exportHADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

exportPATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

在当前运行环境中应用更改。



source~/.bashrc

编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh并设置JAVA_HOME环境变量。



exportJAVA_HOME=/opt/jdk1.7.0_79/

现在,先从配置基本的hadoop单节点集群开始。

首先编辑hadoop配置文件并进行以下更改。



cd/home/hadoop/hadoop/etc/hadoop

让我们编辑core-site.xml。



<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

</property>

</configuration>

接着编辑hdfs-site.xml:



<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<property>

<name>dfs.name.dir</name>

<value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>

</property>

<property>

<name>dfs.data.dir</name>

<value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>

</property>

</configuration>

并编辑mapred-site.xml:



<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>

最后编辑yarn-site.xml:



<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

现在使用以下命令格式化namenode:



hdfsnamenode-format

要启动所有hadoop服务,请使用以下命令:



cd/home/hadoop/hadoop/sbin/

start-dfs.sh

start-yarn.sh

要检查所有服务是否正常启动,请使用jps命令:



jps

你应该看到这样的输出。



26049SecondaryNameNode

25929DataNode

26399Jps

26129JobTracker

26249TaskTracker

25807NameNode

现在,你可以在浏览器中访问Hadoop服务:http://your-ip-address:8088/。



hadoop

谢谢阅读!!!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  Hadoop