您的位置:首页 > 大数据 > 人工智能

AIX日常运维管理需要做哪些工作

2012-12-29 11:18 363 查看
1.
AIX错误日志检查

2. AIX性能监控

3. AIX参数优化

4. HACMP的日志监控和错误诊断

5.
HMC控制台日志检查和管理

1. 错误日志检查

AIX中主要看Error log和mail中的错误,大多数的软硬件错误会在Error Log中来体现,就是常用的errpt命令来查看

errpt -a 查看所有错误详细输出

errpt 查看错误列表

errpt -aj错误ID 查看指定错误ID的错误信息

errpt -dH 查看硬件类型报错信息

英文项目或者简称含义:

LABLE:事件名称
IDENTIFIER:事件ID
Date/Time:发生的时间
Sequence Number:事件序列号
Machine ID:机器标识
Node ID:节点标识
Class:事件来源

错误类型:

S-软件

H-硬件

I-信息

U-未定的

Type:事件类型

PEND-设备或组件的可用性损失是急迫的。
PERF-设备或组件的性能已下降到可接受的级别以下。
PERM-出现了不可恢复的情况。如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。如果错误类型为 PERM 之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。

TEMP—在出现多次不成功的尝试之后,所恢复到的状态。这种错误类型也可以用于记录信息性条目,如 DASD 设备的数据传输统计信息。
UNKN—无法确定错误的严重程度。
INFO—错误日志条目是信息性的,并且不是某个错误所产生的结果。

Resource Name:检测到错误的资源的名称。对于软件错误,这是某个软件组件或可执行程序的名称。对于硬件错误,这是某个设备或系统组件的名称。它并不表示该组件出现故障或者需要更换。相反,它用于确定合适的诊断模块以用于对错误进行分析。

Resource Class:检测到故障的资源的一般类别(例如,磁盘的设备类别)。
Resource Type:检测到故障的资源的类型。
Location Code:设备的路径。最多可能有四个字段,分别是抽屉、插槽、连接器和端口。
VPD:关键的产品数据。这个字段的内容(如果存在)可能各不相同。设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。

Description:错误的汇总信息。
Probable Cause:一些可能的错误原因的列表。
User Causes:由用户错误所导致错误的可能原因的列表。用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。

Actions:对于纠正用户所导致的错误的推荐操作的描述。
Install Causes:因为不正确的安装或者配置过程所导致错误的可能原因列表。这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。

Actions:对于纠正安装所导致的错误的推荐操作的描述。
Failure Causes:可能的硬件或者软件故障列表。
Actions:对于纠正故障的推荐操作的描述。对于硬件错误,这将导致运行诊断程序。
Detailed Data:针对每个错误日志条目的、唯一的故障数据,如设备检测数据。

继续说错误日志的问题:

清理全部日志:#errclear 0
设定日志大小:# /usr/lib/errdemon –s 10000 设定我们的日志文件大小为10000bytes
日志位置:/var/adm/ras/errlog
错误日志启停:由#/usr/lib/errdemon命令启动,#/usr/lib/errstop停止,非常简单
errdemon进程从/dev/error逻辑设备文件中读取纪录,然后在系统错误日志中创建错误日志纪录

2. 性能监控工具一览


[align=center]CPU[/align]
内存


磁盘


网络


[align=center]vmstat iostat[/align]
[align=center]vmstat[/align]
[align=center]iostat[/align]
[align=center]netstat[/align]
[align=center]topas nmon [/align]
[align=center]topas nmon [/align]
[align=center]topas nmon [/align]
[align=center]topas nmon [/align]
[align=center]ps[/align]
[align=center]ps[/align]
[align=center]lvmstat iostat -d[/align]
[align=center]entstat[/align]
[align=center]time netpmon[/align]
[align=center]filemon[/align]
[align=center]filemon[/align]
[align=center]iptrace ipreport[/align]
[align=center]trace trcrpt[/align]
[align=center]trace trcrpt[/align]
[align=center]trace trcrpt[/align]
[align=center]trace trcrpt[/align]
上面罗列的经典工具中有很多已经不怎么用了,nmon已经集成了大部分的日常监控功能,并且图形化很直观,但是在一些复杂古怪的case中,只有这些基础的经典工具可以救你于水火,AIX中主要需要监控CPU、内存、磁盘、网络四部分的性能问题,日常又以内存和磁盘问题居多,所以后面我们会重点讲内存和磁盘的性能分析和故障解决。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: