IBM小型机HA故障定位及解决方法
2013-06-14 16:18
288 查看
对于HA安装时出现的故障,如同步拓扑图失败,要求检查以下条款看是否符合要求:
1.对于4.4.1版本的HA一定要打上15以上的补丁,4.5版本的HA要求打上9以上的补丁
2.网络相关的配置文件一定要按照安装手册去设置
3.网络ip配置要正确并且保证物理链路畅通
4.所有4.4.1、4.4.0版本一律使用标准版
5.不能在同一台机器中同时安装标准版或ES版
6. 打补丁时请使用smitty update_all方式,不要选择打所有补丁,因为标准版和ES版的补丁往往在一起,这样会导致版本不一致
如果是新开局,一定要保证做双机倒换测试并确保成功。
如果在后续使用中,进行了如下操作,以后再做双机切换会失败:
1.在IBM小型机主机上做过磁阵RAID或共享VG相关信息的修改,如:增加了新的RAID盘,修改了共享VG的配置
2.在共享VG中增加了新的FS、增加了新LV
3.以上配置或修改只在主机上进行了操作,而未将共享VG信息及时同步到备机
4.备机虽然导入了新的共享VG信息,但未修改共享VG属性为系统启动时不自动启动
5.未在共享VG激活、共享文件系统mount状态下修改备机共享文件系统、裸设备的权限改为数据库可操作的权限
以下是HA的正常操作流程和异常情况下的处理,供参考:
HA正常操作流程
a、启动HA前必须保证:
双机结构组件物理连接正确无误
操作系统运行正常
HA软件安装配置正确,拓扑结构和资源组同步成功完成
系统当前无任何HA进程如clstrmgr、clsmuxpd或clinfo运行,如果有则首先执行HA关闭操作
系统当前无任何HA资源组中定义的应用进程或设备击活,如共享磁盘vg未挂接在任何节点上、属于资源组的数据库和应用进程未启动等
b、HA启动过程是clstrmgr被击活后由它在后台调用执行相关脚本完成,所以启动过程是否结束不能单看cluster进程是否被击活,最好方法是跟踪hacmp.out日志记录:
# tail -f /tmp/hacmp.out
启动结束标志:hacmp.out记录HACMP Event Summary(任何动作结束标志)
建议主备节点顺序启动,不可主备机同时启动HA
c、任何事件操作必须等待该事件完全执行完毕后方可执行下一个事件
d、HA结合服务器的冗余部件可以完全消除双机系统中的单点故障,但当系统出现多点故障时并不保证系统正常运行,多点故障包括双机同时出现多个与HA相关部件错误,或者双机出现某个错误引起HA启动相应事件脚本切换后又出现另一个错误需要再次切换资源,此时,需要看具体情况人工干预引导系统正常运行
e、在关闭HA时,需要确保HA彻底关闭后才执行后续操作,是否完成关闭动作可查看:
# lssrc -g cluster
无任何进程运行
# tail -f /tmp/hacmp.out
hacmp.out记录HACMP Event Summary
# lsvg -o
共享vg不在挂接与任何一个节点服务器上
f、任何事件默认须在360秒内执行完成,否则HA将自动启动config_too_long事件。
g、如果在执行任何事件脚本时出现异常或错误,HA将挂死而无法完成后续事件脚本,经过360秒钟后,HA将自动启动config_too_long脚本,hacmp.out将记录此事件的执行
异常情况应急处理
在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:
a、关闭所有有关HA的应用进程,如手工停止智能网进程,手工停止数据库等
b、umount所有共享vg上的文件系统
c、执行varyoffvg将共享vg从服务器离线
d、执行smitty clstop选择Shutdown mode为"forced"方式关闭HA
e、用命令
# ps -ef
# lsvg -o
# lssrc -g cluster
# netstat -i
等查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不能保证系统保持运行正常,可能出现系统宕机)
f、查看双机系统物理连接是否完好
g、通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否正常
h、通过以上各个步骤的操作HA依然不能正常工作,关机重启系统
1.对于4.4.1版本的HA一定要打上15以上的补丁,4.5版本的HA要求打上9以上的补丁
2.网络相关的配置文件一定要按照安装手册去设置
3.网络ip配置要正确并且保证物理链路畅通
4.所有4.4.1、4.4.0版本一律使用标准版
5.不能在同一台机器中同时安装标准版或ES版
6. 打补丁时请使用smitty update_all方式,不要选择打所有补丁,因为标准版和ES版的补丁往往在一起,这样会导致版本不一致
如果是新开局,一定要保证做双机倒换测试并确保成功。
如果在后续使用中,进行了如下操作,以后再做双机切换会失败:
1.在IBM小型机主机上做过磁阵RAID或共享VG相关信息的修改,如:增加了新的RAID盘,修改了共享VG的配置
2.在共享VG中增加了新的FS、增加了新LV
3.以上配置或修改只在主机上进行了操作,而未将共享VG信息及时同步到备机
4.备机虽然导入了新的共享VG信息,但未修改共享VG属性为系统启动时不自动启动
5.未在共享VG激活、共享文件系统mount状态下修改备机共享文件系统、裸设备的权限改为数据库可操作的权限
以下是HA的正常操作流程和异常情况下的处理,供参考:
HA正常操作流程
a、启动HA前必须保证:
双机结构组件物理连接正确无误
操作系统运行正常
HA软件安装配置正确,拓扑结构和资源组同步成功完成
系统当前无任何HA进程如clstrmgr、clsmuxpd或clinfo运行,如果有则首先执行HA关闭操作
系统当前无任何HA资源组中定义的应用进程或设备击活,如共享磁盘vg未挂接在任何节点上、属于资源组的数据库和应用进程未启动等
b、HA启动过程是clstrmgr被击活后由它在后台调用执行相关脚本完成,所以启动过程是否结束不能单看cluster进程是否被击活,最好方法是跟踪hacmp.out日志记录:
# tail -f /tmp/hacmp.out
启动结束标志:hacmp.out记录HACMP Event Summary(任何动作结束标志)
建议主备节点顺序启动,不可主备机同时启动HA
c、任何事件操作必须等待该事件完全执行完毕后方可执行下一个事件
d、HA结合服务器的冗余部件可以完全消除双机系统中的单点故障,但当系统出现多点故障时并不保证系统正常运行,多点故障包括双机同时出现多个与HA相关部件错误,或者双机出现某个错误引起HA启动相应事件脚本切换后又出现另一个错误需要再次切换资源,此时,需要看具体情况人工干预引导系统正常运行
e、在关闭HA时,需要确保HA彻底关闭后才执行后续操作,是否完成关闭动作可查看:
# lssrc -g cluster
无任何进程运行
# tail -f /tmp/hacmp.out
hacmp.out记录HACMP Event Summary
# lsvg -o
共享vg不在挂接与任何一个节点服务器上
f、任何事件默认须在360秒内执行完成,否则HA将自动启动config_too_long事件。
g、如果在执行任何事件脚本时出现异常或错误,HA将挂死而无法完成后续事件脚本,经过360秒钟后,HA将自动启动config_too_long脚本,hacmp.out将记录此事件的执行
异常情况应急处理
在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:
a、关闭所有有关HA的应用进程,如手工停止智能网进程,手工停止数据库等
b、umount所有共享vg上的文件系统
c、执行varyoffvg将共享vg从服务器离线
d、执行smitty clstop选择Shutdown mode为"forced"方式关闭HA
e、用命令
# ps -ef
# lsvg -o
# lssrc -g cluster
# netstat -i
等查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不能保证系统保持运行正常,可能出现系统宕机)
f、查看双机系统物理连接是否完好
g、通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否正常
h、通过以上各个步骤的操作HA依然不能正常工作,关机重启系统
相关文章推荐
- IBM P系列小型机故障的基本定位
- IBM P系列小型机故障的基本定位
- RS/6000小型机故障的基本定位方法
- IBM P系列小型机故障的基本定位
- IBM__P系列 小型机 故障定位 故障排除
- IBM小型机硬件故障定位
- AIX 部分故障的判断、定位、解决方法手册
- RS/6000小型机故障的基本定位方法
- RS/6000小型机故障的基本定位方法2
- 小型机故障的基本定位方法 推荐
- IBM P系列小型机故障的基本定位(包括阵列和常用命令)
- asp.net网站页面空白故障解决方法
- windows8系统网络连接受限制或无法连接等故障的解决方法
- BIOS常见故障及解决方法
- Slave_SQL_Running: No mysql同步故障解决方法
- IE6、IE7下绝对定位position:absolute和margin的冲突bug解决方法
- 如何解决IE6/7绝对定位元素神秘消失或被遮挡的方法
- Win7操作系统常见故障解决方法大全
- 安装系统时出现-安装程序无法创建新的系统分区,也无法定位现有的系统分区,解决方法
- ctags : ctrl+] 定位出错解决方法