您的位置:首页 > 运维架构 > Linux

Cloudera Manager (centos)安装详细介绍

2016-03-04 22:59 1061 查看


前奏1:首先介绍Cloudera的CDH和Apache的Hadoop的区别

Cloudera的CDH和Apache的Hadoop的区别 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks
Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本,CDH和Apache版本主要区别如下:

(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。

(2)CDH3版本是基于Apache hadoop 0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总

是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。

(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证

(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。

(5)CDH支持Yum/Apt包,Tar包,RPM包,Cloudera Manager四种方式安装,Apache hadoop只支持Tar包安装。

注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处:

1、联网安装、升级,非常方便

2、自动下载依赖软件包

3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。

4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。

Cloudera CDH、CM简化了hadoop的部署,对于hadoop监控及hadoop生态系统监控都是非常方便的。

cdh安装,只需要一键安装即可,

参考各个版本Linux单节点伪分布一键安装CDH5.1.X及提交wordcount到yarn高可靠文档

如果想安装hadoop生态系统,并且能够监控起来,Cloudera Manager安装是一个不错的选择

参考:Cloudera
Manager5及CDH5在线(cloudera-manager-installer.bin)安装详细文档

如果是apache hadoop的安装则相对复杂些,在加上监控,难度就加大了。

参考hadoop2.2完全分布式最新高可靠安装文档

对于三个组件的安装参考hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结

从上面看出,整合方面就比较复杂些,所以cdh简化了不少部署

虽然CDH、CM(Cloudera Manager)简化了部署,但是hadoop原生也有自己的好处,版本更新快,不受限制,各有优点和缺点




前奏2:介绍Cloudera的CDH的生态系统

Cloudera 由来自 Facebook 谷歌 和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher) 、克里斯托弗·比塞格利亚 (Christophe Bisciglia) 、埃姆·阿瓦达拉 (Amr Awadallah) 以及现任 CEO 、甲骨文前高管迈克·奥尔森 (Mike Olson) 在2008 年创建。

首先来看下 Cloudera 的技术框架:



主要有几大主要的组件:

1 、 Hbase:Hbase 是一个分布式的,扩展性很强的存储,主要受 G oogle 的Bigtable 的启发,可以参考《 实时分析系统 (HIVE/HBASE/IMPALA) 浅析》。

2 、 Impala : I mpala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互SQL 大数据查询工具, Impala 没有再使用缓慢的 Hive+MapReduce 批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由 Query Planner 、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase中用 SELECT 、 JOIN 和统计函数查询数据,从而大大降低了延迟。 Impala现在还谈不上成熟,Cloudera坚持在Impala上投入,相信会有一个比较好的发展。

3 、 Spark : spark 是伯克利大学开源的一个内存分布式计算引擎。内存替代硬盘成为趋势,所以 spark 现在非常热门,包括腾讯, UC ,淘宝都有团队在研究和应用。

相比 Hortonworks , Cloudera 包装的开源软件要显得少一些,可以参考文章《 hadoop 发行商介绍: Hortonworks 》 ,但是从目前业界的情况来看,cloudera 坚持了自己的技术,普遍认为 cloudera 的发展潜力更大,包括最近 intel 放弃自己的发行版本,转而支持 cloudera 。

从 Hortonworks 和 Cloudera 两家都支持的力度来看, Spark 是未来的一个方向,尽快现在还存在或多或少的问题,内存替代硬盘的趋势基本得到了所有人的认同。

除了 Hortonworks 和 Cloudera 两家主要的发型版提供商, Hadoop 发型领域还有MapR , EMC 等,各有特点。从大多数应用来说,选择 Cloudera 和 Hortonworks 就足够了,更具技术能力的公司,可以考虑在开源的基础上封装,完善开源以适合自己的应用。当能,要考虑及时将自己的成果开源出去哦,无数的经验证明,不开源出去的软件单靠单个公司去维护,很快就会没有生命力的。



问题导读:

1.安装需要做哪些准备?

2.如何安装CM?

3.如何通过CM安装CDH?

4.CM及CDH安装的过程都包含什么?



相信通过这篇文章大家都对Cloudera Manager及CDH安装有一个整体的认识

目 录
1 准备工作...........................................................................................................................................3

1.1 说明...............................................................................................................................................3

1.2 集群网络环境介绍..........................................................................................................................3

2 环境搭建...........................................................................................................................................5

2.1 设置IP...........................................................................................................................................5

2.2 设置hosts......................................................................................................................................5

2.3 关闭防火墙....................................................................................................................................6

2.4 关闭SElinux....................................................................................................................................8

2.5 设置机器名....................................................................................................................................8

3 ClouderaManager安装................................................................................................................... 11

3.1 下载Cloudera Manager安装文件................................................................................................... 11

3.2 下载Cloudera Manager所需的rpm包............................................................................................ 11

3.3 安装rpm文件............................................................................................................................... 11

3.4 安装CM....................................................................................................................................... 11

3.5 登录CM....................................................................................................................................... 12

4 ClouderaManager配置及本地源配置.............................................................................................. 13

4.1 配置config.ini文件........................................................................................................................ 13

4.2 配置本地源.................................................................................................................................. 14

5 Hadoop及其组件安装......................................................................................................................17

5.1 选择Cloudera版本........................................................................................................................ 17

5.2 选中受管理的主机........................................................................................................................ 17

5.3 选择安装方式(Cloudera推荐使用Parcel)................................................................................... 18

5.4 把Parcel分配到主机..................................................................................................................... 18

5.5 选择服务...................................................................................................................................... 19

5.6 测试数据库连接........................................................................................................................... 20

5.7 等待所有服务启动........................................................................................................................ 20

6 向集群增加节点............................................................................................................................... 22

6.1 添加主机...................................................................................................................................... 22

6.2 输入IP或主机名........................................................................................................................... 23

6.3 提供SSH登录凭据........................................................................................................................ 24

6.4 安装............................................................................................................................................. 24

使用Cloudera Manager安装Hadoop
运行环境软硬件环境l 主机操作系统:Windows
64 bit,双核4线程,主频2.2G,8G内存

l 虚拟软件:VMware®Workstation 9.0.0 build-812388

l 虚拟机操作系统:CentOs 64bit,单核,2G内存

l JDK:1.7.0_45 64 bit

l Hadoop:2.2.0

集群网络环境集群包含三个节点:1个namenode,1个datanode,节点之间局域网连接,可以相互ping通。节点IP地址和主机名分布如下:

l 192.168.188.141 hadoo1 (namenode))

l 192.168.188.139 hadoo2 (datanode01)

l 192.168.188.140 hadoo3 (datanode03)

所有节点均是CentOS系统,防火墙iptables均禁用

环境搭建

本集群分为三个节点,先安装节点hadoop1(192.168.188.141),完成2.1~2.6步骤后,在步骤2.7中复制虚拟机并命名为hadoop2(192.168.188.139)和hadoop3(192.168.188.140)。

设置IP1. 点击System-->Preferences-->Network Connections,如下图所示:



2. 删除原来的连接信息,新建一个“”连接,设置该连接为手工方式,设置如下信息:

IP地址: 10.88.147.221

子网掩码: 255.255.255.0

网关: 10.88.147.1

DNS: 10.*.*.* (使用DNS上网需要设置)



3. 在命令行中查看设置的IP地址信息,如果不能够正确可以在执行2.5重启机器后再次确认:



设置Host文件1. 编辑/etc/hosts文件,设置IP地址与机器名的映射,设置信息如下:

l 10.88.147.141 hadoop1.localdomain

l 10.88.147.139 hadoop2.localdomain

l 10.88.147.140 hadoop2.localdomain



2. 使用如下命令对网络设置进行重启

sudo /etc/init.d/network restart

3. 验证设置是否成功



关闭防火墙

在Hadoop安装过程中需要关闭防火墙和SElinux,否则会异常

1. service iptables status 查看防火墙状态,如下所示表示iptables已经开启



2. 使用如下命令关闭iptables,执行该命令后重启机器生效

chkconfig iptables off

关闭SElinux1. 使用getenforce命令查看是否关闭



2. 修改/etc/selinux/config 文件

将SELINUX=enforcing改为SELINUX=disabled,执行该命令后重启机器生效



设置机器名以root用户登录,使用 vi/etc/sysconfig/network 打开配置文件,修改主机名称为hadoop1



复制虚拟机关闭机器,复制当前节点两份,分别命名为:hadoop2和hadoop3

SSH无密码验证配置(这一步可省略)

3. 在三个节点中使用ssh-keygen -t rsa生成私钥和公钥;



4. 在三个节点中分别把公钥命名为authorized_keys_hadoop1、authorized_keys_hadoop2、authorized_keys_hadoop3;



5. 把两个从节点的公钥使用scp authorized_keys_hadoop2 jan@hadoop1:/home/jan/.ssh 命令传送到hadoop1节点的/home/jan/.ssh文件夹中;





6. 把三个节点的公钥信息保存到authorized_key文件中

使用cat authorized_keys_hadoop1 >> authorized_keys命令



7. 把该文件分发到其他两个从节点上

使用scp authorized_keys jan@hadoop2:/home/jan/.ssh把密码文件分发出去





8. 测试ssh免密码登录是否生效



Cloudera Manager安装

下载Cloudera Manager安装文件

Cloudera Manager的可以从如下网址获得:

http://archive.cloudera.com/cm5/installer/

这里选择Cloudera Manager 最新版5.0.1

http://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin

下载Cloudera Manager所需的rpm包

下载网址为:

http://archive.cloudera.com/cm5/redhat/6/x86_64/cm/5.0.1/RPMS/x86_64/

安装rpm文件

l 将下载的rpm包放入文件夹rpm(文件夹名随意)

l cd ./rpm(进入rpm目录)

l yum localinstall –-nogpgcheck *.rpm(安装rpm包)

3.4 安装rpm文件l 进入cloudera-manager-installer.bin的下载目录

l chmod u+x cloudera-manager-installer.bin(给下载的bin文件权限)

l 执行 ./cloudera-manager-installer.bin(大约十分钟左右)

3.5登录CM浏览器输入localhost:7180初次登录 用户名:admin 密码:admin



Cloudera Manager文件配置及本地源配置

配置config.ini文件

修改主机名

修改前为:localhost 修改后为:localhost.localdomain



本地源配置

Parcel的可以从如下网址获得,下载.parcel文件和manifest.json文件:

http://archive.cloudera.com/cdh5/parcels/5.0.1/

因为这里用的是CentOS6.5,所以选择CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel
http://archive.cloudera.com/cdh5/parcels/5.0.1/ href="http://archive.cloudera.com/cdh5/parcels/5.0.1/CDH-5.0.1-1.cdh5.0.1.p0.47-el5.parcel" target=_blank>CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel

注意:Parcel文件对应不同的系统版本

CentOS 6.X对应CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel

CentOS 5.X对应CDH-5.0.1-1.cdh5.0.1.p0.47-el5.parcel

l 把以下载的.parcel文件和manifest.json文件拷贝到/opt/cloudera/parcel-repo/文件夹下

l 新建文件命名为:CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel.sha

l 打开manifest.json文件查看CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel对应的编号,并拷贝到CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel.sha文件中

以下是manifest.json中CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel对应的编号,这里是:ec68971d2969a5a31e720a2a79ce7a7c1d38e397

{

"parcelName":"CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel",

"components": [

{

"pkg_version": "0.7.0+cdh5.0.1+0",

"pkg_release": "1.cdh5.0.1.p0.30",

"name": "bigtop-tomcat",

"version": "6.0.37-cdh5.0.1"

},

{

"pkg_version": "0.9.0+cdh5.0.1+23",

"pkg_release":"1.cdh5.0.1.p0.25",

"name": "crunch",

"version": "0.9.0-cdh5.0.1"

},

.........

{

"pkg_version": "0.9.0+cdh5.0.1+8",

"pkg_release": "1.cdh5.0.1.p0.25",

"name": "whirr",

"version": "0.9.0-cdh5.0.1"

},

{

"pkg_version": "3.4.5+cdh5.0.1+30",

"pkg_release":"1.cdh5.0.1.p0.31",

"name": "zookeeper",

"version": "3.4.5-cdh5.0.1"

}

],

"replaces": "IMPALA, SOLR, SPARK",

"hash":"ec68971d2969a5a31e720a2a79ce7a7c1d38e397"

}

l 现在本地源已配好,总之parcel-repo文件中包含一下三个文件:

CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel

CDH-5.0.1-1.cdh5.0.1.p0.47-el6.parcel.sha

Manifest.json

l 重启系统

Hadoop及其组件安装选择Cloudera版本



选中受管理的主机



选择安装方式(Cloudera推荐使用Parcel)



把Parcel分配到主机





添加服务



测试数据库连接


等待所有服务开启等待所有服务开启,时间可能会有点长





向集群增加节点增加主机



输入IP或主机名





提供SSH登录凭据



安装



出处:http://www.aboutyun.com/thread-9190-1-1.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: