您的位置:首页 > 运维架构

Hadoop伪分布式集群搭建

2016-11-13 10:20 295 查看


在以上的概念之中实际上只有以下几个名词:

· HDFS:分布式文件系统,是负责信息保存的操作;

· 有一个最为重要的概念就是所有的数据(默认)会保存有三份。

· 低廉硬件:512M内存可以跑,在整个的大数据的集群设计里面,可以不去使用小型机来进行配置,也可以使用一些便宜的电脑。

在Linux操作系统下:

为了保证整个的Hadoop可以正常执行,需要考虑以下几个问题:

· 你的主机名称是什么,如果需要修改主机名称,则执行:vim /etc/hostname,本次设置的主机名称为:“hadoop-alone”,如果修改完成主机名称之后请使用“reboot”重新启动,否则无效;

· 在Hadoop操作的过程之中必须有一个前提:你的IP地址不允许发生变更,一旦有变更,配置失效;

1、 配置hosts文件,设置ip地址与主机名称的映射,输入:vim /etc/hosts

当前ip hadoop-alone


2、配置SSH连接(免登陆密码)

rm -r ~/.ssh
ssh-keygen -t rsa


3、将生成ssh的公钥信息保存在授权文件之中:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys


4、安装Hadoop

对于Hadoop而言,其安装的过程实际上是比较简单,

①使用wget取得:
wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz[/code] 
②如果无法通过wget取得相应开发包则可以通过ftp上传取得,将上传后的hadoop开发包文件解压缩。

本次测试安装的路径为:/usr/local/hadoop

5、修改环境属性将hadoop主目录以及相关的可执行目录配置到系统之中;

vim /etc/profile;

export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:bin:$HADOOP_HOME/bin: $HADOOP_HOME/sbin:


修改保存后退出,并让配置立即生效

6、编辑Hadoop配置文件hadoop-env.sh;

export JAVA_HOME=/usr/local/jdk




7、修改“core-site.xml”文件,该文件作为整个的Hadoop的核心配置文件:

· 建立Hadoop临时的保存路径:mkdir -p /usr/data/hadoop/tmp;

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/data/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop-alone:9000</value>
</property>
</configuration>


本配置文件的主要目的是设置hadoop的临时保存目录,但是这个目录绝对不允许使用“/tmp”目录,因为这个目录会被自动清空,一旦清空了你的配置就完了;

“fs.defaultFS”描述的是默认的文件系统的操作路径:

修改“hdfs-site.xml”文件,进行存储的配置;

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/data/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/data/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>hadoop-alone:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop-alone:50090</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>


在此配置文件之中有如下几个重要的项:

· “dfs.replication”:文件保存的副本数量,副本保存在DataNode之中,现在只有一个主机,所以只存1份;

· “dfs.namenode.name.dir”:保存namenode节点信息的相关操作;

· “dfs.datanode.data.dir”:保存真实数据;

· “dfs.namenode.http-address”:Hadoop启动之后会自动启动有一个HTTP服务,通过浏览器可以访问;

· “dfs.namenode.secondary.http-address”:SecondaryNameNode节点的HTTP访问;

· “dfs.permissions”:表示的是hdfs操作权限,设置为false表示不验证。

修改“yarn-site.xml”文件;

<configuration>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoop-alone:8033</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoop-alone:8025</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop-alone:8030</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>hadoop-alone:8050</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoop-alone:8030</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoop-alone:8088</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.https.address</name>
<value>hadoop-alone:8090</value>
</property>
</configuration>


修改slaves配置信息

hadoop/etc/hadoop/slaves

hadoop-alone


8、此时相关的配置环境配置完成,随后需要对namenode节点进行格式化处理;

hdfs namenode -format


提示 Exiting with status 0 则表示配置成功

如果现在服务已经启动,则可以在外部通过浏览器的模式来观察,连接地址:http:// 服务器IP :50070
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息