您的位置：首页 > 运维架构

Ambari？自动部署Hadoop集群

2017-12-07 16:42 375 查看

自动部署？Ambari

Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。就 Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈（例如 Hive，Hbase，Sqoop，Zookeeper 等）。它帮助我们更好的去管理Hadoop集群相关的服务，也支持一些扩展，可以让我们去定制一些服务。

你是不是为了配置hadoop集群伤透了脑筋？为了集群添加机器而头痛。如果你遇到了Ambari你就会发现，原来他就是你的救世主。

Ambari 自身也是一个分布式架构的软件，主要由两部分组成：Ambari Server 和 Ambari Agent。简单来说，用户通过 Ambari Server 通知 Ambari Agent 安装对应的软件；Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server，最终这些状态信息会呈现在 Ambari 的 GUI，方便用户了解到集群的各种状态，并进行相应的维护。

Ambari的详细介绍及相关信息可以浏览下面的网址，虽然他很NB，但是不是我们今天的重点！

Ambari——大数据平台的搭建利器

自动部署脚本

为什么Ambari那么NB却不用呢，其实很想用，毕竟这已经是一个很成熟的软件了，但是不能用或者说是不方便用。

我司项目都是直接下载的apache开源的hadoop相关源码，部分软件进行了自己的修改重新编译的。这是其一。其二就是ambari需要从repo源。但是某些情况下无外网，无内网源自己去部署程序还得先搭建cdh相关的repo源是一件非常麻烦的事情。。。而且，基本的配置现在基本都定下来了，基本就是更改一下相关软件的hostname或者ip就可以搞定的事情，没必要上ambari的大杀器。所以还是自己搞了一坨脚本，其目的就是将各个软件的tar包ssh到各个服务器节点，然后根据配置进行解压，复制对应的配置文件到对应的目录。也能实现集群的部署操作，后面还可以继续修改，支持主机的添加等功能。

主体逻辑：读取集群配置，ssh传输软件包到各个服务器，根据配置生成对的配置文件，ssh传输到各个服务器各个软件对应的目录。齐活了。

下面还是简单看一下代码吧，实现相对比较简单：

集群配置：

{

"clusterName":"hadoopy",

"namenode":"namenode-1",

"datanode": [

"datanode-1",

"datanode-2"

],

"regionservers": [

"datanode-1",

"datanode-2"

],

"hmaster":"namenode-1",

"metastore": [

"namenode-1",

"datanode-1"

],

"mysql":"datanode-1",

"azkaban":"datanode-1",

"ldap":"datanode-1",

"redis":"datanode-1",

"coordinator":"namenode-1",

"workers": [

"datanode-1",

"datanode-2"

],

"spark": [

"datanode-1",

"datanode-2"

],

"zookeeper": [

"namenode-1",

"datanode-1",

"datanode-2"

],

"hosts": [

{

"hostname":"namenode-1",

"ip":"192.168.0.100",

"password":"51Weather",

"port":22

},

{

"hostname":"datanode-1",

"ip":"192.168.0.101",

"password":"51Weather",

"port":22

},

{

"hostname":"datanode-2",

"ip":"192.168.0.102",

"password":"51Weather",

"port":22

}

]

}

由以上配置可见，我们有三台机器，然后将hadoop，hbase，hive metastore，presto，zookeeper等分别装到我们配置的机器上去。那我们脚本所做的工作其实跟上篇文章所做的工作差不多，首先需要配置免密，安装JDK，安装程序，配置等等。

举一下hadoop安装的例子，脚本首先会根据上面的集群配置生成对应的配置文件：

def set_hdfs_site():

hdfs_site = os.path.join(TMP_DIR,"hdfs-site.xml")

with open(hdfs_site,"w") as f:

f.write(HDFS_SITE.replace("KEYTAB_PATH", KEYTAB_PATH))

def set_core_site(ldap, namenode):

core_site = os.path.join(TMP_DIR,"core-site.xml")

with open(core_site,"w") as f:

f.write(CORE_SITE.replace("NAMENODE", namenode)

.replace("TMP_DIR", HADOOP_TMP_DIR)

.replace("LDAP_URI","ldap://{0}".format(ldap)).replace("LDAP_PWD", LDAP_PWD))

然后按照hadoop：

def hadoop(ssh_client):

hadoop_path = os.path.join(RESOURCES_DIR,'hadoop-2.7.3.tar.gz')

remote_path ="/home/{0}/{1}".format(USER,'hadoop-2.7.3.tar.gz')

ssh_client.transport_file(hadoop_path, remote_path)

ssh_client.exec_shell_command("tar zxf {0}".format(remote_path))

ssh_client.exec_shell_command("mkdir {0}".format(HADOOP_TMP_DIR))

ssh_client.exec_shell_command("mkdir /data1",use_root=True)

ssh_client.exec_shell_command("mkdir /name1",use_root=True)

src_path = (

os.path.join(TMP_DIR,"hdfs-site.xml"),

os.path.join(TMP_DIR,"core-site.xml"),

os.path.join(TMP_DIR,"mapred-site.xml"),

os.path.join(TMP_DIR,"yarn-site.xml"),

os.path.join(TMP_DIR,"hadoop-slaves")

)

dist_path = (

os.path.join(HADOOP_DEFAULT_CONF_PATH,"hdfs-site.xml"),

os.path.join(HADOOP_DEFAULT_CONF_PATH,"core-site.xml"),

os.path.join(HADOOP_DEFAULT_CONF_PATH,"mapred-site.xml"),

os.path.join(HADOOP_DEFAULT_CONF_PATH,"yarn-site.xml"),

os.path.join(HADOOP_DEFAULT_CONF_PATH,"slaves")

)

map(ssh_client.transport_file, src_path, dist_path)

print("install hadoop seccuss")

全部代码可以在hadoop_install_github看到，就不赘述了，没什么技术含量。如果配置已定或者网络不太方便，我觉得自己写脚本比用ambari要来的快一些，但是还是要称赞一下ambari。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航