Spark分布式搭建(4)——ubuntu下Hadoop分布式搭建
2016-02-06 23:20
169 查看
0.前言
我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。Spark分布式搭建(1)——ubuntu14.04 设置root自动登入
/article/7784958.html
Spark分布式搭建(2)——ubuntu14.04下修改hostname和hosts
/article/7784959.html
Spark分布式搭建(3)——ubuntu下ssh无密码登入(设置ssh公钥认证)
/article/7784960.html
1.安装rsync
rsync,remote synchronize顾名思意就知道它是一款实现远程同步功能的软件,它在同步文件的同时,可以保持原来文件的权限、时间、软硬链接等附加信息。可以通过ssh方式来传输文件。
在4台机器上都安装好rsync,可通过ssh进入其他机器并输入安装指令。
2.安装JDK
Hadoop是要安装在JVM上运行的,所以都要安装JDK。这里的操作先在一台机器上进行,先在Master机器上进行。
2.1 下载JDK
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html选择linux 64位系统,压缩凡是tar.gz
截图中时8.73版本。我实际下载的时8.71版本。
2.2 解压
我下载的在Downloads文件夹里,所以先直接解压在当前目录:复制到local目录下(我把要安装的东西都放在了这个目录下)
2.3 配置JDK,JRE环境变量
修改bashrc文件,添加环境变量在文件末尾加入如下内容:
再用soure命令,使其生效:
2.4 验证
输入java -version,能显示版本好,就表示JDK配置成功。3.安装Hadoop
继续先在Master机器上进行。3.1下载Hadoop
下载地址:http://hadoop.apache.org/releases.html
我选用时2.6.2版本,binary的。
3.2 解压
解压在当前目录复制到local目录下
3.3 配置Hadoop环境变量
用vim命令编辑bashrc文件:添加如下内容:
保存并退出。再用source使其生效。
图中配置HADOOP_CONF_DIR文件时为了更好多支持yarn的运行(yarn是个资源管理框架)
监测环境配置是否正确,输入hadoop version
能显示版本就表示正确。
3.4 单台设置Hadoop文件配置
Hadoop的配置文件在etc里的hadoop里面,我一共是配置了6个文件,core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml,hadoop-env.sh,slaves配置core-site.xml
先cd进入etc的hadoop里。
vim命令打开core-site.xml文件
添加如下配置内容:
配置hdfs-site.xml
vim命令打开hdfs-site.xml文件
添加如下配置内容:
配置mapred-site.xml
在目录里木有mapred-site.xml文件,只有mapred-site.xml.template文件,先复制这个文件,并命名为mapred-site.xml,用cp命令复制,代码如下:
vim命令打开mapred-site.xml文件
添加如下配置内容:
配置yarn-site.xml
vim命令打开yarn-site.xml文件
添加如下配置内容:
配置hadoop-env.sh
vim命令打开hadoop-env.sh文件
添加如下配置内容:
配置slaves
vim命令打开slaves文件
修改配置如下:
这个时候Master里的Hadoop内容都配置完成了。
3.5 配置Hadoop集群
直接从Master机器上将JDK,Hadoop,bashrc文件都发送到各个Worker机器上。scp传bashrc文件给3台Worker机器:
scp传hadoop文件夹给3台Worker机器:
scp传JDk文件夹给3台Worker机器:
并用ssh登入其他worker,用source使每台的bashrc文件生效。下面只取Worker1机器的操作。
到这里所以相关配置完成了。
4.运行Hadoop集群
格式化文件系统(必须做):开启dfs文件系统:
用JPS查看当前进行,显示如下则启动成功:
也可以在WEB浏览器等入Master:50070来查看,可以看到我的Live Nodes 显示有3台存在,说明成功了。
也可以在Live Nodes点进去,查看具体信息:
开启yarn资源管理模块:
再用jps来查看,发现多开启了个ResoureManager,说明资源管理模块yarn开启成功。
可以登入到Woker节点,用jps查看,内容如下:
还可以再Master:8088上查看内容:
再这上面就可以开启mapreduce,当然,我主要是为了搭建Spark集群,所以到这一步,Hadoop内容已经足够后面搭建Spark了。
XianMing
相关文章推荐
- [置顶] Linux下实现脚本监测特定进程占用内存情况
- Linux一些数学计算相关的命令
- Locale in Linux
- Locale in Linux
- Locale in Linux
- Locale in Linux
- Locale in Linux
- Locale in Linux
- Android应用架构
- 高性能架构
- 抓取第三方网站数据
- 记CentOS 7环境下安装g++
- CentOS 6 安装在虚拟机上 eth0网卡无法工作的解决
- 老王学linux-heartbeat-2.1.4-12.el6.x86_64
- Linux目录遍历实现 -- 列出当前目录下所有文件
- install Nginx iptables
- Drying (Poj3104,Northeastern Europe 2005, Northern Subregion)
- DDD CQRS架构和传统架构的优缺点比较
- NSConnection和RunLoop的关系
- ACCESS网站示例-连载-提示类文件