您的位置:首页 > 其它

IBM小型机HA故障定位及解决方法

2013-06-14 16:18 288 查看
对于HA安装时出现的故障,如同步拓扑图失败,要求检查以下条款看是否符合要求:
1.对于4.4.1版本的HA一定要打上15以上的补丁,4.5版本的HA要求打上9以上的补丁
2.网络相关的配置文件一定要按照安装手册去设置
3.网络ip配置要正确并且保证物理链路畅通
4.所有4.4.1、4.4.0版本一律使用标准版
5.不能在同一台机器中同时安装标准版或ES版
6. 打补丁时请使用smitty update_all方式,不要选择打所有补丁,因为标准版和ES版的补丁往往在一起,这样会导致版本不一致
如果是新开局,一定要保证做双机倒换测试并确保成功。
如果在后续使用中,进行了如下操作,以后再做双机切换会失败:
1.在IBM小型机主机上做过磁阵RAID或共享VG相关信息的修改,如:增加了新的RAID盘,修改了共享VG的配置
2.在共享VG中增加了新的FS、增加了新LV
3.以上配置或修改只在主机上进行了操作,而未将共享VG信息及时同步到备机
4.备机虽然导入了新的共享VG信息,但未修改共享VG属性为系统启动时不自动启动
5.未在共享VG激活、共享文件系统mount状态下修改备机共享文件系统、裸设备的权限改为数据库可操作的权限
以下是HA的正常操作流程和异常情况下的处理,供参考:
HA正常操作流程
a、启动HA前必须保证:
双机结构组件物理连接正确无误
操作系统运行正常
HA软件安装配置正确,拓扑结构和资源组同步成功完成
系统当前无任何HA进程如clstrmgr、clsmuxpd或clinfo运行,如果有则首先执行HA关闭操作
系统当前无任何HA资源组中定义的应用进程或设备击活,如共享磁盘vg未挂接在任何节点上、属于资源组的数据库和应用进程未启动等

b、HA启动过程是clstrmgr被击活后由它在后台调用执行相关脚本完成,所以启动过程是否结束不能单看cluster进程是否被击活,最好方法是跟踪hacmp.out日志记录:
# tail -f /tmp/hacmp.out
启动结束标志:hacmp.out记录HACMP Event Summary(任何动作结束标志)
建议主备节点顺序启动,不可主备机同时启动HA
c、任何事件操作必须等待该事件完全执行完毕后方可执行下一个事件

d、HA结合服务器的冗余部件可以完全消除双机系统中的单点故障,但当系统出现多点故障时并不保证系统正常运行,多点故障包括双机同时出现多个与HA相关部件错误,或者双机出现某个错误引起HA启动相应事件脚本切换后又出现另一个错误需要再次切换资源,此时,需要看具体情况人工干预引导系统正常运行
e、在关闭HA时,需要确保HA彻底关闭后才执行后续操作,是否完成关闭动作可查看:
# lssrc -g cluster
无任何进程运行
# tail -f /tmp/hacmp.out
hacmp.out记录HACMP Event Summary
# lsvg -o
共享vg不在挂接与任何一个节点服务器上
f、任何事件默认须在360秒内执行完成,否则HA将自动启动config_too_long事件。

g、如果在执行任何事件脚本时出现异常或错误,HA将挂死而无法完成后续事件脚本,经过360秒钟后,HA将自动启动config_too_long脚本,hacmp.out将记录此事件的执行
异常情况应急处理
在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:
a、关闭所有有关HA的应用进程,如手工停止智能网进程,手工停止数据库等
b、umount所有共享vg上的文件系统
c、执行varyoffvg将共享vg从服务器离线
d、执行smitty clstop选择Shutdown mode为"forced"方式关闭HA
e、用命令
# ps -ef
# lsvg -o
# lssrc -g cluster
# netstat -i
等查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不能保证系统保持运行正常,可能出现系统宕机)
f、查看双机系统物理连接是否完好
g、通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否正常
h、通过以上各个步骤的操作HA依然不能正常工作,关机重启系统
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: