您的位置:首页 > 其它

PowerHA7.1.1 之 CAA继续深入剖析

2013-10-18 09:11 387 查看
上一篇,我们简单的介绍了一下CAA,那么从这篇开始,我们将对CAA进行更深入的研究

一、CAA start and stop commands

CAA cluster的管理是通过clctrl命令来进行管理的。CAA R2版本的clctrl命令有更多的功能:

1.1 clctrl-stop作用:

①: 维护集群节点的时候,通过此命令,可以停止该维护节点,并且让另外一个节点不会认为需要维护的节点宕了;

②:防止当一个节点关闭电源后,重新加到一个重启后的集群中

 停止一个节点#clctrl -stop -m <node>

1.2 clctrl-start

①:一个已经停止并且一直保持停止状态的节点,只有当使用此命令,才能使之重新加到集群中

②:维护集群后,重新启动一个或者多个节点重新加到cluster中

③:防止当一个节点关闭电源后,重新加到一个重启后的集群中

 启动一个停止的节点#clctrl -start -m <node>

二、CAA tunables的作用:

主要是调节repository-disk功能,具体请看后续关于Rep-disk的篇章

当然,这里有一个点:关于判断rep-disk是否故障,请看:

我们先查看一下clctrl -tune 的帮助信息

#clctrl -tune -h repos_mode

Help for tunable repos_mode:
Purpose:
Controls node behavior when cluster repository access is lost.
Scope: clusterwide, per node
Values:
Default: e
Range: a, e
Unit:
Tuning:
When the value is set to "a" (assert), the node will crash upon losing access
to the cluster repository.
When the value is set to "e" (event), an AHAFS event is generated.
A node-specific setting trumps the cluster-wide setting and can be used to override the behavior on a per-node basis.


从上可以看出:rep-mode有两种模式,①assert模式,该模式下,如果该节点无法访问集群存储库,那么该节点会崩溃

                                                       ②event模式(repos-mode默认的模式),该节点只会生成一个AHAFS事件。

这两模式是可以随时更换的,但是,必须重启节点才能生效。

并且,通过更换rep-mode模式,查看其相关结果,是可以用来判断repository-disk是否出现故障的

三、Troubleshooting CAA(CAA故障诊断)

CAA是PowerHA7.1的一个新特征,它的作用是举足轻重的!那么我们该如何来诊断CAA呢?

通过snap命令!!snap命令会生成一些日志目录:收集日志并且提供一些非常有利于你诊断CAA的信息。如

#snap caa(用来收集caa所有信息)

********Checking and initializing directory structure

Creating /tmp/ibmsupt/caa directory tree... done.

Creating /tmp/ibmsupt/testcase directory tree... done.

Creating /tmp/ibmsupt/other directory tree... done.

********Finished setting up directory /tmp/ibmsupt

Checking Space requirement for caa

Checking for enough free space in filesystem... done.

Gathering caa data

接下来,我们还看看CAA的另外一个功能:

CAA uses the syslog facility to log debug information and errors.CAA使用syslog工具来记录调试信息和错误信息

查看系统默认的syslog对CAA的配置,这个信息默认保存在/etc/syslog.conf文件中

caa.info /var/adm/ras/syslog.caa rotate size 1m files 10

此外,我们还可以更改caa.info所在的行,来提示CAA诊断指定的问题,当然修改syslog的配置是需要重启这个服务才会生效。

非常好奇CAA日志文件中会有什么东东?

事实上,CAA日志文件中包含了(通过lscluster -s可以验证下面的三类信息)

①所有的CAA配置命令,譬如mkcluster、rmcluster、chcluster

②所有的存储事件和集群网络之间的数据接受和分发事件

③所有的错误报告

从下面可以看出:

#lscluster -s

root@caa1 / # lscluster -s

Cluster Statistics:
Cluster Network Statistics:
pkts seen:14003431 pkts passed:1811887

IP pkts:12826417 UDP pkts:12240064


gossip pkts sent:2906895 gossip pkts recv:5479896

cluster address pkts:0 CP pkts:12191555

bad transmits:82 bad posts:0

short pkts:0 multicast pkts:12150150

cluster wide errors:0 bad pkts:0

dup pkts:405 pkt fragments:0

fragments queued:0 fragments freed:0

pkts pulled:0 no memory:0

rxmit requests recv:5 requests found:5

requests missed:4 ooo pkts:34

requests reset sent:4 reset recv:2

requests lnk reset send :0 reset lnk recv:0

rxmit requests sent:1850

alive pkts sent:0 alive pkts recv:0

ahafs pkts sent:11551 ahafs pkts recv:11280
nodedown pkts sent:0 nodedown pkts recv:0

socket pkts sent:32875 socket pkts recv:31804


cwide pkts sent:797 cwide pkts recv:792

socket pkts no space:0 pkts recv notforhere:0

Pseudo socket pkts sent:0 Pseudo socket pkts recv:0

Pseudo socket pkts dropped:0

arp pkts sent:2 arp pkts recv:1

stale pkts recv:41 other cluster pkts:2
storage pkts sent:1 storage pkts recv:1

disk pkts sent:7357 disk pkts recv:7305

unicast pkts sent:52712 unicast pkts recv:41418

out-of-range pkts recv:0

四、CAA cluster commands and force option

CAA R2版本,废除了一些参数,这里我们不详细解说。



需要特别注意的是:CAA和rep-disk是离不开的,有CAA必会提到rep-disk,因为rep-disk是被CAA所管理的

例如,这里我们通过CAA命令将repositorydisk的信息清除掉

#rmcluster -r hdisk2

最后,我们需要重点讲解CAA多播(这块和网络有很大的联系,所以我们采取与cluster Networks进行串讲)

六、CAA 多播

七、多播诊断
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息