PowerHA7.1.1 之 CAA继续深入剖析
2013-10-18 09:11
387 查看
在上一篇,我们简单的介绍了一下CAA,那么从这篇开始,我们将对CAA进行更深入的研究
一、CAA start and stop commands
CAA cluster的管理是通过clctrl命令来进行管理的。CAA R2版本的clctrl命令有更多的功能:
1.1 clctrl-stop作用:
①: 维护集群节点的时候,通过此命令,可以停止该维护节点,并且让另外一个节点不会认为需要维护的节点宕了;
②:防止当一个节点关闭电源后,重新加到一个重启后的集群中
停止一个节点#clctrl -stop -m <node>
1.2 clctrl-start
①:一个已经停止并且一直保持停止状态的节点,只有当使用此命令,才能使之重新加到集群中
②:维护集群后,重新启动一个或者多个节点重新加到cluster中
③:防止当一个节点关闭电源后,重新加到一个重启后的集群中
启动一个停止的节点#clctrl -start -m <node>
二、CAA tunables的作用:
主要是调节repository-disk功能,具体请看后续关于Rep-disk的篇章
当然,这里有一个点:关于判断rep-disk是否故障,请看:
我们先查看一下clctrl -tune 的帮助信息
#clctrl -tune -h repos_mode
从上可以看出:rep-mode有两种模式,①assert模式,该模式下,如果该节点无法访问集群存储库,那么该节点会崩溃
②event模式(repos-mode默认的模式),该节点只会生成一个AHAFS事件。
这两模式是可以随时更换的,但是,必须重启节点才能生效。
并且,通过更换rep-mode模式,查看其相关结果,是可以用来判断repository-disk是否出现故障的
三、Troubleshooting CAA(CAA故障诊断)
CAA是PowerHA7.1的一个新特征,它的作用是举足轻重的!那么我们该如何来诊断CAA呢?
通过snap命令!!snap命令会生成一些日志目录:收集日志并且提供一些非常有利于你诊断CAA的信息。如
#snap caa(用来收集caa所有信息)
********Checking and initializing directory structure
Creating /tmp/ibmsupt/caa directory tree... done.
Creating /tmp/ibmsupt/testcase directory tree... done.
Creating /tmp/ibmsupt/other directory tree... done.
********Finished setting up directory /tmp/ibmsupt
Checking Space requirement for caa
Checking for enough free space in filesystem... done.
Gathering caa data
接下来,我们还看看CAA的另外一个功能:
CAA uses the syslog facility to log debug information and errors.CAA使用syslog工具来记录调试信息和错误信息
查看系统默认的syslog对CAA的配置,这个信息默认保存在/etc/syslog.conf文件中
caa.info /var/adm/ras/syslog.caa rotate size 1m files 10
此外,我们还可以更改caa.info所在的行,来提示CAA诊断指定的问题,当然修改syslog的配置是需要重启这个服务才会生效。
非常好奇CAA日志文件中会有什么东东?
事实上,CAA日志文件中包含了(通过lscluster -s可以验证下面的三类信息)
①所有的CAA配置命令,譬如mkcluster、rmcluster、chcluster
②所有的存储事件和集群网络之间的数据接受和分发事件
③所有的错误报告
从下面可以看出:
#lscluster -s
root@caa1 / # lscluster -s
Cluster Statistics:
Cluster Network Statistics:
pkts seen:14003431 pkts passed:1811887
IP pkts:12826417 UDP pkts:12240064
gossip pkts sent:2906895 gossip pkts recv:5479896
cluster address pkts:0 CP pkts:12191555
bad transmits:82 bad posts:0
short pkts:0 multicast pkts:12150150
cluster wide errors:0 bad pkts:0
dup pkts:405 pkt fragments:0
fragments queued:0 fragments freed:0
pkts pulled:0 no memory:0
rxmit requests recv:5 requests found:5
requests missed:4 ooo pkts:34
requests reset sent:4 reset recv:2
requests lnk reset send :0 reset lnk recv:0
rxmit requests sent:1850
alive pkts sent:0 alive pkts recv:0
ahafs pkts sent:11551 ahafs pkts recv:11280
nodedown pkts sent:0 nodedown pkts recv:0
socket pkts sent:32875 socket pkts recv:31804
cwide pkts sent:797 cwide pkts recv:792
socket pkts no space:0 pkts recv notforhere:0
Pseudo socket pkts sent:0 Pseudo socket pkts recv:0
Pseudo socket pkts dropped:0
arp pkts sent:2 arp pkts recv:1
stale pkts recv:41 other cluster pkts:2
storage pkts sent:1 storage pkts recv:1
disk pkts sent:7357 disk pkts recv:7305
unicast pkts sent:52712 unicast pkts recv:41418
out-of-range pkts recv:0
四、CAA cluster commands and force option
CAA R2版本,废除了一些参数,这里我们不详细解说。
![](https://img-blog.csdn.net/20131018091456031?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdG9nZXRoZXI4/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)
需要特别注意的是:CAA和rep-disk是离不开的,有CAA必会提到rep-disk,因为rep-disk是被CAA所管理的。
例如,这里我们通过CAA命令将repositorydisk的信息清除掉
#rmcluster -r hdisk2
最后,我们需要重点讲解CAA多播(这块和网络有很大的联系,所以我们采取与cluster Networks进行串讲)
六、CAA 多播
七、多播诊断
一、CAA start and stop commands
CAA cluster的管理是通过clctrl命令来进行管理的。CAA R2版本的clctrl命令有更多的功能:
1.1 clctrl-stop作用:
①: 维护集群节点的时候,通过此命令,可以停止该维护节点,并且让另外一个节点不会认为需要维护的节点宕了;
②:防止当一个节点关闭电源后,重新加到一个重启后的集群中
停止一个节点#clctrl -stop -m <node>
1.2 clctrl-start
①:一个已经停止并且一直保持停止状态的节点,只有当使用此命令,才能使之重新加到集群中
②:维护集群后,重新启动一个或者多个节点重新加到cluster中
③:防止当一个节点关闭电源后,重新加到一个重启后的集群中
启动一个停止的节点#clctrl -start -m <node>
二、CAA tunables的作用:
主要是调节repository-disk功能,具体请看后续关于Rep-disk的篇章
当然,这里有一个点:关于判断rep-disk是否故障,请看:
我们先查看一下clctrl -tune 的帮助信息
#clctrl -tune -h repos_mode
Help for tunable repos_mode: Purpose: Controls node behavior when cluster repository access is lost. Scope: clusterwide, per node Values: Default: e Range: a, e Unit: Tuning: When the value is set to "a" (assert), the node will crash upon losing access to the cluster repository. When the value is set to "e" (event), an AHAFS event is generated. A node-specific setting trumps the cluster-wide setting and can be used to override the behavior on a per-node basis.
从上可以看出:rep-mode有两种模式,①assert模式,该模式下,如果该节点无法访问集群存储库,那么该节点会崩溃
②event模式(repos-mode默认的模式),该节点只会生成一个AHAFS事件。
这两模式是可以随时更换的,但是,必须重启节点才能生效。
并且,通过更换rep-mode模式,查看其相关结果,是可以用来判断repository-disk是否出现故障的
三、Troubleshooting CAA(CAA故障诊断)
CAA是PowerHA7.1的一个新特征,它的作用是举足轻重的!那么我们该如何来诊断CAA呢?
通过snap命令!!snap命令会生成一些日志目录:收集日志并且提供一些非常有利于你诊断CAA的信息。如
#snap caa(用来收集caa所有信息)
********Checking and initializing directory structure
Creating /tmp/ibmsupt/caa directory tree... done.
Creating /tmp/ibmsupt/testcase directory tree... done.
Creating /tmp/ibmsupt/other directory tree... done.
********Finished setting up directory /tmp/ibmsupt
Checking Space requirement for caa
Checking for enough free space in filesystem... done.
Gathering caa data
接下来,我们还看看CAA的另外一个功能:
CAA uses the syslog facility to log debug information and errors.CAA使用syslog工具来记录调试信息和错误信息
查看系统默认的syslog对CAA的配置,这个信息默认保存在/etc/syslog.conf文件中
caa.info /var/adm/ras/syslog.caa rotate size 1m files 10
此外,我们还可以更改caa.info所在的行,来提示CAA诊断指定的问题,当然修改syslog的配置是需要重启这个服务才会生效。
非常好奇CAA日志文件中会有什么东东?
事实上,CAA日志文件中包含了(通过lscluster -s可以验证下面的三类信息)
①所有的CAA配置命令,譬如mkcluster、rmcluster、chcluster
②所有的存储事件和集群网络之间的数据接受和分发事件
③所有的错误报告
从下面可以看出:
#lscluster -s
root@caa1 / # lscluster -s
Cluster Statistics:
Cluster Network Statistics:
pkts seen:14003431 pkts passed:1811887
IP pkts:12826417 UDP pkts:12240064
gossip pkts sent:2906895 gossip pkts recv:5479896
cluster address pkts:0 CP pkts:12191555
bad transmits:82 bad posts:0
short pkts:0 multicast pkts:12150150
cluster wide errors:0 bad pkts:0
dup pkts:405 pkt fragments:0
fragments queued:0 fragments freed:0
pkts pulled:0 no memory:0
rxmit requests recv:5 requests found:5
requests missed:4 ooo pkts:34
requests reset sent:4 reset recv:2
requests lnk reset send :0 reset lnk recv:0
rxmit requests sent:1850
alive pkts sent:0 alive pkts recv:0
ahafs pkts sent:11551 ahafs pkts recv:11280
nodedown pkts sent:0 nodedown pkts recv:0
socket pkts sent:32875 socket pkts recv:31804
cwide pkts sent:797 cwide pkts recv:792
socket pkts no space:0 pkts recv notforhere:0
Pseudo socket pkts sent:0 Pseudo socket pkts recv:0
Pseudo socket pkts dropped:0
arp pkts sent:2 arp pkts recv:1
stale pkts recv:41 other cluster pkts:2
storage pkts sent:1 storage pkts recv:1
disk pkts sent:7357 disk pkts recv:7305
unicast pkts sent:52712 unicast pkts recv:41418
out-of-range pkts recv:0
四、CAA cluster commands and force option
CAA R2版本,废除了一些参数,这里我们不详细解说。
需要特别注意的是:CAA和rep-disk是离不开的,有CAA必会提到rep-disk,因为rep-disk是被CAA所管理的。
例如,这里我们通过CAA命令将repositorydisk的信息清除掉
#rmcluster -r hdisk2
最后,我们需要重点讲解CAA多播(这块和网络有很大的联系,所以我们采取与cluster Networks进行串讲)
六、CAA 多播
七、多播诊断
相关文章推荐
- PowerHA 7.1.`之CAA 进一步剖析
- 深入剖析浏览器退出之后php还会继续执行么
- 深入剖析浏览器退出之后php还会继续执行么
- 深入剖析Redis RDN持久化机制
- 深入剖析js命名空间函数namespace
- 深入剖析CSS中的线性渐变linear-gradient
- 深入剖析基于并发AQS的(独占锁)重入锁(ReetrantLock)及其Condition实现原理
- TaintDroid深入剖析之启动篇
- C语言自增自减运算符深入剖析
- 信噪比SNR , Eb/N0 , Es/N0区别与联系之深入剖析
- Java深入浅出系列(三)——深入剖析动态代理--性能比较
- 深入剖析Android四大组件(七)——Activity启动的4个阶段
- C++中的【菱形虚继承】深入剖析
- 深入剖析iLBC的丢包补偿技术(PLC)
- 深入剖析PE文件(一)
- 深入剖析C#继承机制(4)
- C++ Vector用法深入剖析
- 红黑树深入剖析及Java实现
- 深入理解 Tomcat(八)源码剖析之连接器