您的位置：首页 > 运维架构

Spark分布式搭建（4）——ubuntu下Hadoop分布式搭建

2016-02-06 23:20 169 查看

0.前言

我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。

Spark分布式搭建（1）——ubuntu14.04 设置root自动登入

/article/7784958.html

Spark分布式搭建（2）——ubuntu14.04下修改hostname和hosts

/article/7784959.html

Spark分布式搭建（3）——ubuntu下ssh无密码登入（设置ssh公钥认证）

/article/7784960.html

1.安装rsync

rsync，remote synchronize顾名思意就知道它是一款实现远程同步功能的软件，它在同步文件的同时，可以保持原来文件的权限、时间、软硬链接等附加信息。可以通过ssh方式来传输文件。

在4台机器上都安装好rsync，可通过ssh进入其他机器并输入安装指令。

2.安装JDK

Hadoop是要安装在JVM上运行的，所以都要安装JDK。这里的操作先在一台机器上进行，先在Master机器上进行。

2.1 下载JDK

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

选择linux 64位系统，压缩凡是tar.gz

截图中时8.73版本。我实际下载的时8.71版本。

2.2 解压

我下载的在Downloads文件夹里，所以先直接解压在当前目录：

复制到local目录下（我把要安装的东西都放在了这个目录下）

2.3 配置JDK，JRE环境变量

修改bashrc文件，添加环境变量

在文件末尾加入如下内容：

再用soure命令，使其生效：

2.4 验证

输入java －version，能显示版本好，就表示JDK配置成功。

3.安装Hadoop

继续先在Master机器上进行。

3.1下载Hadoop

下载地址：

http://hadoop.apache.org/releases.html

我选用时2.6.2版本，binary的。

3.2 解压

解压在当前目录

复制到local目录下

3.3 配置Hadoop环境变量

用vim命令编辑bashrc文件：

添加如下内容：

保存并退出。再用source使其生效。

图中配置HADOOP_CONF_DIR文件时为了更好多支持yarn的运行（yarn是个资源管理框架）

监测环境配置是否正确，输入hadoop version

能显示版本就表示正确。

3.4 单台设置Hadoop文件配置

Hadoop的配置文件在etc里的hadoop里面，我一共是配置了6个文件，core-site.xml，hdfs-site.xml，mapred-site.xml，yarn-site.xml，hadoop-env.sh，slaves

配置core-site.xml

先cd进入etc的hadoop里。