Corosync+pacemaker
2016-06-21 21:46
225 查看
Corosync是OpenAIS发展到Wilson版本后衍生出来的开放性集群引擎工程。可以说Corosync是OpenAIS工程的一部分,Corosync执行高可用应用程序的通信组系统,它有以下特征: 一个封闭的程序组通信模式,这个模式提供一种虚拟的同步方式来保证能够复制服务器的状态。 一个简单可用性管理组件,这个管理组件可以重新启动应用程序的进程当它失败后。 一个配置和内存数据的统计,内存数据能够被设置,回复,接受通知的更改信息。 一个定额的系统,定额完成或者丢失时通知应用程序。 corosync是高可用集群中的Cluster Messaging Layer(集群信息层),是主要传递发集群信息与心跳信息的,并没有资源管理功能,资源管理还得依赖于上层的crm(Cluster resource Manager,集群资源管理器),最著名的资源管理器,就是pacemaker,它是heartbeat v3分离出去的子项目。而现在corosync+pacemaker成了高可用集群中的最佳组合。 pacemaker是一个群集资源管理器。它实现最大可用性群集服务(亦称资源管理)的节点和资源级故障检测和恢复使用。 它可以做乎任何规模的集群,并配备了一个强大的依赖模型,使管理员能够准确地表达群集资源之间的关系(包括顺序和位置)。几乎任何可以编写脚本,可以管理作为心脏起搏器集群的一部分。 pacemaker是个资源管理器,不是提供心跳信息的,pacemaker是一个延续的CRM(亦称Heartbeat V2资源管理器),最初是为心跳,但已经成为独立的项目。pacemaker 特点1.主机和应用程序级别的故障检测和恢复2.几乎支持任何冗余配置3.同时支持多种集群配置模式4.配置策略处理法定人数损失(多台机器失败时)5.支持应用启动/关机顺序6.支持在同一台机器上运行的应用程序7.支持多种模式的应用程序(如主/从)8.可以测试任何故障或群集的群集状态 配置pacemaker有两种配置途径,一时命令行工具包括crm和pcs,二是图形工具:pugui,LCMC,pcsd和mgmt,其中LCMC是java编写的图形管理界面;Hawk是官方推荐代替mgmt的web界面配置工具,pcsd是pcs的图形界面。从pacemaker1.1.8开始crmsh就作为一个独立项目不再提供需要另行下载。crm有两种工作方式:1.批处理模式就是在命令行中直接输入命令(如执行crm status)2.交互式模式:运行crm,进入crm(live)# , 按2次Tab键可显示该层级所有指令crm中常用一级命令:configure 用于设置具体参数resource 对已定义资源进行各种操作ra resource agents center, 可查看哪些resource agent可供使用cib 类似于configure,只是操作的是cib shadownode 对节点进行各类操作status 显示集群状态信息cd 返回上一级Ctrl+c 退出configure中的指令show 查看当前配置verify 检查当前配置是否正确, 相当于crm_verify -Lcommit 提交配置使配置生效,修改后没提交系统不会保存更改的信息delete 删除某项配置, name为该项的名称edit 编辑某项配置,name为该项的名称primitive 定义资源monitor 资源检视group 创建组资源,将几项资源编成一组clone 克隆已建的资源ms/master 定义master/slave资源primitive中参数说明资源代理类型: lsb, ocf, stonith, service资源代理的提供程序: heartbeat , pacemaker资源代理名称:即resource agent, 如:IPaddr2,httpd, mysqlmeta--元属性, 是可以为资源添加的选项。它们告诉 CRM 如何处理特定资源。params--实例属性,是特定资源类的参数,用于确定资源类的行为方式及其控制的服务实例。op--操作,默认情况下,群集不会确保您的资源一直正常。要指示群集确保资源状况依然正常,需要向资源的定义中添加一个监视操作monitor。可为所有类或资源代理添加monitor。op_type :包括 start,stop,monitorinterval :执行操作的频率。单位:秒。timeout : 需要等待多久才声明操作失败。requires :需要满足什么条件才能发生此操作。允许的值:nothing、quorum 和 fencing。默认值取决于是否启用屏障和资源的类是否为 stonith。对于 STONITH 资源,默认值为 nothing。on-fail :此操作失败时执行的操作。允许的值:ignore:假装资源没有失败。block:不对资源执行任何进一步操作。stop:停止资源并且不在其他位置启动该资源。restart:停止资源并重启动。fence:关闭资源失败的节点 (STONITH)。standby:将所有资源从资源失败的节点上移走。enabled 如果值为 false,将操作视为不存在。允许的值:true、false。下面是pacemaker的配置
![](http://s2.51cto.com/wyfs02/M01/83/0B/wKioL1dpVWGRoE1uAACgPqC3TVk503.png-wh_500x0-wm_3-wmp_4-s_4124262466.png)
安装crm命令来配置pacemaker
![](http://s4.51cto.com/wyfs02/M00/83/0B/wKioL1dpVXLzah1IAACbYWjc1pU890.png-wh_500x0-wm_3-wmp_4-s_2540524419.png)
忽略法定节点数:(集群不会以为节点不够而失效)
![](http://s1.51cto.com/wyfs02/M02/83/0B/wKioL1dpVZzB0rfHAADost0bzAU190.png-wh_500x0-wm_3-wmp_4-s_1866432905.png)
添加vip
![](http://s4.51cto.com/wyfs02/M01/83/0B/wKioL1dpVdGBa7KpAACzWZC92-8627.png-wh_500x0-wm_3-wmp_4-s_4187935215.png)
添加apache服务
![](http://s5.51cto.com/wyfs02/M01/83/0C/wKiom1dpVgSRH83sAACk-FFo8Tw899.png-wh_500x0-wm_3-wmp_4-s_1499079384.png)
注意为了监控Apache的健康状态,并在它挂掉的时候恢复Apache服务,server-status URL是可用的:
![](http://s4.51cto.com/wyfs02/M02/83/0B/wKioL1dpVnDSqsS7AADXQ-dWOfI179.png-wh_500x0-wm_3-wmp_4-s_1599060361.png)
挂载文件系统
![](http://s4.51cto.com/wyfs02/M02/83/0C/wKiom1dpVrbwACx_AAB7ZRVIW9Y774.png-wh_500x0-wm_3-wmp_4-s_2964177112.png)
添加mysql服务
yum install pacemaker cd /etc/corosync/ cp corosync.conf.example corosync.conf vim corosync.conf bindnetaddr: 172.25.9.0 #设定网段 mcastaddr: 226.94.1.1 #多波地址 mcastport:5405 #多波端口 service{ name:pacemaker #添加pacemaker服务 ver:0 #0为启动corsync时自动启动pacemaker服务,1为不接管服务 }在其他节点做相同配置启动corosync
/etc/init.d/corosync start crm_verify -LV #查看配置文件是否正确 crm_mon #查看节点状态
![](http://s2.51cto.com/wyfs02/M01/83/0B/wKioL1dpVWGRoE1uAACgPqC3TVk503.png-wh_500x0-wm_3-wmp_4-s_4124262466.png)
安装crm命令来配置pacemaker
yum install crmsh-1.2.6-0.rc2.2.1.x86_64.rpm pssh-2.3.1-2.1.x86_64.rpm -y crm #进入crm交互界面 configure show#查看当前配置
![](http://s4.51cto.com/wyfs02/M00/83/0B/wKioL1dpVXLzah1IAACbYWjc1pU890.png-wh_500x0-wm_3-wmp_4-s_2540524419.png)
忽略法定节点数:(集群不会以为节点不够而失效)
property no-quorum-policy=ignore commi #将修改同步到其他节点添加fence(要安装cman)
primitive vmfence stonith:fence_xvm params pcmk_host_map="server2.example.com:vm2;server3.example.com:vm3" op monitor interval=1min #server2/3.example.com是节点名,vm2/3为虚拟机名称 commi #将修改同步到其他节点用show命令可以看到fence的添加
![](http://s1.51cto.com/wyfs02/M02/83/0B/wKioL1dpVZzB0rfHAADost0bzAU190.png-wh_500x0-wm_3-wmp_4-s_1866432905.png)
添加vip
primitive vip ocf:heartbeat:IPaddr2 params ip=172.25.9.100 cidr_netmask=32 op monitor interval=30s commi #将修改同步到其他节点用crm_mon命令可以看到vip在server2主机上
![](http://s4.51cto.com/wyfs02/M01/83/0B/wKioL1dpVdGBa7KpAACzWZC92-8627.png-wh_500x0-wm_3-wmp_4-s_4187935215.png)
添加apache服务
primitive httpd ocf:heartbeat:apache params configfile=/etc/httpd/conf/httpd.conf op monitor interval=30s commi #将修改同步到其他节点用crm_mon命令可以看到apache运行在server3主机上
![](http://s5.51cto.com/wyfs02/M01/83/0C/wKiom1dpVgSRH83sAACk-FFo8Tw899.png-wh_500x0-wm_3-wmp_4-s_1499079384.png)
注意为了监控Apache的健康状态,并在它挂掉的时候恢复Apache服务,server-status URL是可用的:
vim /etc/httpd/conf/httpd.conf <Location /server-status> SetHandler server-status Order deny,allow Allow from 127.0.0.1 </Location>粘滞服务(使得服务与vip在同一主机上运行)
colocation httpd-with-ip inf: httpd vip #方法一 group apache vip httpd #方法二 commi #将修改同步到其他节点用crm_mon命令可以看到vip和apache都运行在server2主机上做完实验我们可以用delete apache 和delete httpd删除apache组和服务用drdb同步存储
primitive sqldata ocf:linbit:drbd params drbd_resource=westos op monitor interval=60s ms sqldataclone sqldata meta master-max=1 master-node-max=1 clone-max=2 clone-node-max=1 notify=true用crm_mon命令可以看到drdb已加入集群:
![](http://s4.51cto.com/wyfs02/M02/83/0B/wKioL1dpVnDSqsS7AADXQ-dWOfI179.png-wh_500x0-wm_3-wmp_4-s_1599060361.png)
挂载文件系统
primitive sqlfs ocf:heartbeat:Filesystem params device=/dev/drbd1 directory=/var/lib/mysql fstype=ext4 colocation sqlfs_on_drbd inf: sqlfs sqldataclone:Master order sqlfs-after-sqldata inf: sqldataclone:promote sqlfs:start用crm_mon命令可以看到文件系统已挂载
![](http://s4.51cto.com/wyfs02/M02/83/0C/wKiom1dpVrbwACx_AAB7ZRVIW9Y774.png-wh_500x0-wm_3-wmp_4-s_2964177112.png)
添加mysql服务
primitive mysql lsb:mysqld op monitor interval=60s group mygroup vip sqlfs mysql #将vip,文件系统,mysql进行粘滞
相关文章推荐
- Rabbitmq集群搭建笔记
- ZBUS高可用HA介绍
- 国内第一篇详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程
- 利用pgpool实现PostgreSQL的高可用
- Kafka设计解析(三)- Kafka High Availability (下)
- How to Setup a windows 2008 Failover cluster[01]
- 非常不错的rabbitmq集群高可用部署
- JuniperFW HA
- vMotion、SvMotion、HA和FT的详细对比说明
- vMotion、SvMotion、HA和FT的详细对比说明
- XenMotion 与HA的区别
- mysql HA
- 企业web高可用集群实战之lvs+keepalived+mysql HA
- SRX防火墙cluster配置步骤
- eclipse错误处理
- VMware HA实战攻略之一软硬件环境准备
- VMware HA实战攻略之二实验环境准备
- VMware HA实战攻略之三添加主机及存储
- VMware HA实战攻略之四VMware HA安装及配置
- VMware HA实战攻略之五VMwareHA测试验收