Hadoop系列之(三):使用Cloudera部署,管理Hadoop集群
2016-01-29 13:48
991 查看
1. Cloudera介绍
Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装。根据使用的需要,Hadoop集群要安装很多的组件,一个一个安装配置起来比较麻烦,还要考虑HA,监控等。
使用Cloudera可以很简单的部署集群,安装需要的组件,并且可以监控和管理集群。
CDH是Cloudera公司的发行版,包含Hadoop,Spark,Hive,Hbase和一些工具等。
Cloudera有两个版本:
Cloudera Express 版本是免费的
Cloudera Enterprise (60天试用期)需要购买注册码
2. 安装Cloudrea Manager,部署Hadoop集群
2.1 安装方法
先安装Cloudrea Manager,再通过Cloudrea Manager在节点上安装Cloudrea Manager客户端,CDH,管理工具。官方文档:
https://www.cloudera.com/documentation/manager/5-1-x.html
环境需求:
1. 关闭selinux
2. 各节点可以SSH登陆
3. 在/etc/hosts中添加各节点的主机名
2.2 安装Cloudrea Manager
可以通过官方的一键安装包,也可以通过yum或rpm安装。下面介绍用官方的一键安装包安装。
本次安装环境为CnetOS 7,在3台机器上进行安装
test165 (cloudera manager server)
test166 (cloudera manager agent)
test167 (cloudera manager agent)
2.2.1 下载一键安装包
http://archive.cloudera.com/cm5/installer/latest/下载最新版: cloudera-manager-installer.bin
2.2.2 安装cloudera manager
在test165上安装cloudera manager server,启动安装向导# chmod a+x cloudera-manager-installer.bin # ./cloudera-manager-installer.bin
出现下面画面
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/cbb4839ed8f4cf8690e4c596d30f6509.png)
一路选择< Next > 和 < Yes >,开始安装。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/8e1028d77d58871bb30a7369f1350db9.png)
需要下载JAVA和Cloudrea Manager,共600多MB,根据网络情况,会花一些时间。
出现下面页面,安装完成。
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/dad8bdd2ef90d8c103ded531ee4a4dfc.png)
安装完成后,访问Cloudrea Manager的页面,用户名密码都是admin
http://IP或主机名:7180/
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/567186d89bc1b80006afa09c9ef405f4.png)
2.2.3 安装cloudera manager agent
登录Cloudrea Manager页面,选择要安装的版本,本次安装的是Cloudera Express选择要安装CDH的主机,用主机名或IP搜索,本次是在三个节点上安装CDH
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/d996c86b36ecd7653b83eacc514d86d0.png)
选择使用Parcel安装,选择CDH版本
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/3766304692ef4061e447b73e92345d94.png)
选择安装JDK
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/e813a887b0a9e5f8cccb3b2c3ef2f382.png)
提供SSH登录信息
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/b4a246be2134722fd3933d9f773e5b54.png)
开始安装JDK和cloudera manager agent
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/c54a9ba4cd9fdc3e99654d15bfbcc034.png)
如果安装过程中,下载安装jdk 或 cloudera-manager-agent失败,可以在节点上手动安装,然后再在Cloudrea Manager上继续安装
# yum -y install jdk # yum -y install oracle-j2sdk1.7 # yum -y install cloudera-manager-agent
下载Parcel并分配Parcel到各节点
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/c5c36f6928a35ee47aaa45d1c6e3a690.png)
Parcel包1.5G左右,需要一段时间,为了提高安装速度,可以先把包下载到Cloudrea Manager本地,配置本地源
parcel下载地址:
http://archive.cloudera.com/cdh5/parcels/5.5.1/
将下面文件拷贝到/opt/cloudera/parcel-repo/文件夹下
CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel
CDH-5.5.1-1.cdh5.5.1.p0.11-el7.parcel.sha
manifest.json
安装完成后,点继续,到检查结果的页面
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/ac72a25c2b370e8a2c40dc38c6215c58.png)
检查主机正确性时出现 “Cloudera 建议将 /proc/sys/vm/swappiness 设置为 0。当前设置为 30。” 的警告,进行如下设定
# vi /etc/sysctl.conf vm.swappiness = 0 # sysctl –p
检查主机正确性时出现 “已启用“透明大页面”,它可能会导致重大的性能问题。” 的警告,进行如下设定
echo never > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag # vi /etc/rc.local echo never > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag
2.3 安装集群,包括Hadoop,YARN,Hive等
检查主机正确性后,点击完成,进入集群配置选择要安装的服务,可以选择组合或自定义
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/8d81be215b5f96ffe85f82b51ae1a927.png)
配置各节点间如何分配
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/93b622aca2a0fa8bdbd09cf06539f83b.png)
注意: HDFS的Data Node 最少3个。
测试数据库连接
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/cd1502410283e747da16b2933062b3ff.png)
开始安装
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/1b1394fa8e62b521d3e72e0ed93e5409.png)
3. 确认,测试
确认集群状态正常,动作正常1. 在集群页面确认,所有服务状态正常
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/08948484268ba39cd172352bb24c97f9.png)
2. 在主机页面确认,各节点的Heartbeat状态正常,并且时间小于15秒
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/82cdb39e34431939d647749b96908aac.png)
3. 运行任务进行测试
登陆到集群中任意一台主机,执行下面任务(用Hadoop计算PI值,圆周率)
后面2个数字参数的含义: 10指的是要运行10次map任务,10000指的是每个map任务,要投掷多少次,2个参数的乘积就是总的投掷次数。
# sudo -u hdfs hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar pi 10 10000
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/1ecc618883b4541484e8528c5f3a6600.png)
执行结果如下:
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/5db1de9a81543921bd15fa6ed300b57f.png)
任务的执行情况可以在YARN页面上进行确认
群集 -> Cluster 1 -> YARN -> 应用程序
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/3ace55ea0857e43cb8eadd5388318597.png)
4. 其他
在Cloudrea Manager页面上,可以向集群中添加/删除主机,添加服务到集群等。Cloudrea Manager页面开启了google-analytics,因为从国内访问很慢,可以关闭google-analytics
管理 -> 设置 -> 其他 -> 允许使用情况数据收集 不选
![](https://oscdn.geek-share.com/Uploads/Images/Content/202003/28/538a0990e4f6d5669307bff6ea334d8d.png)
5. 后记
工欲善其事必先利其器,管理Hadoop 集群,Cloudrea 是个不错的选择。相关文章推荐
- Linux下批量修改后缀名
- Linux、Solaris 系统根据时间动态创建目录或文件夹的方法
- OpenHEVC(ffmpeg)多线程解码参数配置过程
- Hadoop平台架构--存储篇
- Hadoop HA实战
- linux下查看进程的方式
- openSession和getCurrentSession的比较
- Nginx基础入门之gzip常用配置项说明
- Linux曲径通幽:LAMP环境搭建
- Apache配置实现日志按天分割并删除指定几天前的日志
- linux shell 常用表达式汇总
- 系统学习Linux建议
- 解决centos 6.6 更换yum 163源报错
- 常用shell命令
- Manual install on Windows 7 with Apache and MySQL
- linux下使用split 来分割大文件
- Linux定时执行脚本
- linux下程序定时重启脚本
- Linux/AIX系统下服务自启动配置
- Apache Shiro 使用手册(五)Shiro 配置说明