AIX日常运维管理需要做哪些工作
2012-12-29 11:18
363 查看
1.
AIX错误日志检查
2. AIX性能监控
3. AIX参数优化
4. HACMP的日志监控和错误诊断
5.
HMC控制台日志检查和管理
1. 错误日志检查
AIX中主要看Error log和mail中的错误,大多数的软硬件错误会在Error Log中来体现,就是常用的errpt命令来查看
errpt -a 查看所有错误详细输出
errpt 查看错误列表
errpt -aj错误ID 查看指定错误ID的错误信息
errpt -dH 查看硬件类型报错信息
英文项目或者简称含义:
LABLE:事件名称
IDENTIFIER:事件ID
Date/Time:发生的时间
Sequence Number:事件序列号
Machine ID:机器标识
Node ID:节点标识
Class:事件来源
错误类型:
S-软件
H-硬件
I-信息
U-未定的
Type:事件类型
PEND-设备或组件的可用性损失是急迫的。
PERF-设备或组件的性能已下降到可接受的级别以下。
PERM-出现了不可恢复的情况。如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。如果错误类型为 PERM 之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。
TEMP—在出现多次不成功的尝试之后,所恢复到的状态。这种错误类型也可以用于记录信息性条目,如 DASD 设备的数据传输统计信息。
UNKN—无法确定错误的严重程度。
INFO—错误日志条目是信息性的,并且不是某个错误所产生的结果。
Resource Name:检测到错误的资源的名称。对于软件错误,这是某个软件组件或可执行程序的名称。对于硬件错误,这是某个设备或系统组件的名称。它并不表示该组件出现故障或者需要更换。相反,它用于确定合适的诊断模块以用于对错误进行分析。
Resource Class:检测到故障的资源的一般类别(例如,磁盘的设备类别)。
Resource Type:检测到故障的资源的类型。
Location Code:设备的路径。最多可能有四个字段,分别是抽屉、插槽、连接器和端口。
VPD:关键的产品数据。这个字段的内容(如果存在)可能各不相同。设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。
Description:错误的汇总信息。
Probable Cause:一些可能的错误原因的列表。
User Causes:由用户错误所导致错误的可能原因的列表。用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。
Actions:对于纠正用户所导致的错误的推荐操作的描述。
Install Causes:因为不正确的安装或者配置过程所导致错误的可能原因列表。这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。
Actions:对于纠正安装所导致的错误的推荐操作的描述。
Failure Causes:可能的硬件或者软件故障列表。
Actions:对于纠正故障的推荐操作的描述。对于硬件错误,这将导致运行诊断程序。
Detailed Data:针对每个错误日志条目的、唯一的故障数据,如设备检测数据。
2. 性能监控工具一览
上面罗列的经典工具中有很多已经不怎么用了,nmon已经集成了大部分的日常监控功能,并且图形化很直观,但是在一些复杂古怪的case中,只有这些基础的经典工具可以救你于水火,AIX中主要需要监控CPU、内存、磁盘、网络四部分的性能问题,日常又以内存和磁盘问题居多,所以后面我们会重点讲内存和磁盘的性能分析和故障解决。
AIX错误日志检查
2. AIX性能监控
3. AIX参数优化
4. HACMP的日志监控和错误诊断
5.
HMC控制台日志检查和管理
1. 错误日志检查
AIX中主要看Error log和mail中的错误,大多数的软硬件错误会在Error Log中来体现,就是常用的errpt命令来查看
errpt -a 查看所有错误详细输出
errpt 查看错误列表
errpt -aj错误ID 查看指定错误ID的错误信息
errpt -dH 查看硬件类型报错信息
英文项目或者简称含义:
LABLE:事件名称
IDENTIFIER:事件ID
Date/Time:发生的时间
Sequence Number:事件序列号
Machine ID:机器标识
Node ID:节点标识
Class:事件来源
错误类型:
S-软件
H-硬件
I-信息
U-未定的
Type:事件类型
PEND-设备或组件的可用性损失是急迫的。
PERF-设备或组件的性能已下降到可接受的级别以下。
PERM-出现了不可恢复的情况。如果错误类型为这个值,那么通常是最严重的错误,并且很可能意味着出现了硬件设备或者软件模块的故障。如果错误类型为 PERM 之外的其他值,通常并不表示故障,但是对这些错误进行了记录,以便可以使用诊断程序对它们进行分析。
TEMP—在出现多次不成功的尝试之后,所恢复到的状态。这种错误类型也可以用于记录信息性条目,如 DASD 设备的数据传输统计信息。
UNKN—无法确定错误的严重程度。
INFO—错误日志条目是信息性的,并且不是某个错误所产生的结果。
Resource Name:检测到错误的资源的名称。对于软件错误,这是某个软件组件或可执行程序的名称。对于硬件错误,这是某个设备或系统组件的名称。它并不表示该组件出现故障或者需要更换。相反,它用于确定合适的诊断模块以用于对错误进行分析。
Resource Class:检测到故障的资源的一般类别(例如,磁盘的设备类别)。
Resource Type:检测到故障的资源的类型。
Location Code:设备的路径。最多可能有四个字段,分别是抽屉、插槽、连接器和端口。
VPD:关键的产品数据。这个字段的内容(如果存在)可能各不相同。设备的错误日志条目通常返回有关设备制造商、序列号、工程变更级别、以及只读存储级别的信息。
Description:错误的汇总信息。
Probable Cause:一些可能的错误原因的列表。
User Causes:由用户错误所导致错误的可能原因的列表。用户所导致的错误可能包括不正确插入的磁盘、未能开启的外部设备(如调制解调器和打印机)。
Actions:对于纠正用户所导致的错误的推荐操作的描述。
Install Causes:因为不正确的安装或者配置过程所导致错误的可能原因列表。这种类型的错误包括硬件和软件不匹配、电缆的不正确安装或电缆连接变松,以及未能正确配置的系统。
Actions:对于纠正安装所导致的错误的推荐操作的描述。
Failure Causes:可能的硬件或者软件故障列表。
Actions:对于纠正故障的推荐操作的描述。对于硬件错误,这将导致运行诊断程序。
Detailed Data:针对每个错误日志条目的、唯一的故障数据,如设备检测数据。
继续说错误日志的问题: 清理全部日志:#errclear 0 设定日志大小:# /usr/lib/errdemon –s 10000 设定我们的日志文件大小为10000bytes 日志位置:/var/adm/ras/errlog 错误日志启停:由#/usr/lib/errdemon命令启动,#/usr/lib/errstop停止,非常简单 errdemon进程从/dev/error逻辑设备文件中读取纪录,然后在系统错误日志中创建错误日志纪录 |
[align=center]CPU[/align] | 内存 | 磁盘 | 网络 |
[align=center]vmstat iostat[/align] | [align=center]vmstat[/align] | [align=center]iostat[/align] | [align=center]netstat[/align] |
[align=center]topas nmon [/align] | [align=center]topas nmon [/align] | [align=center]topas nmon [/align] | [align=center]topas nmon [/align] |
[align=center]ps[/align] | [align=center]ps[/align] | [align=center]lvmstat iostat -d[/align] | [align=center]entstat[/align] |
[align=center]time netpmon[/align] | [align=center]filemon[/align] | [align=center]filemon[/align] | [align=center]iptrace ipreport[/align] |
[align=center]trace trcrpt[/align] | [align=center]trace trcrpt[/align] | [align=center]trace trcrpt[/align] | [align=center]trace trcrpt[/align] |
相关文章推荐
- 一个新手面试 Linux 运维工作至少需要知道哪些知识?
- 系统运维日常工作有哪些,应该具备哪些技能
- 运维工作至少需要知道哪些知识?
- 面试 Linux 运维工作至少需要知道哪些知识?
- AIX日常管理工作
- AIX系统日常管理所做工作
- 学院有意找你开发一个“毕业论文选题管理”的软件,在正式承接本项目的开发任务之前,你认为需要做哪些前期准备工作。
- 知乎问答:一个新手面试 Linux 运维工作至少需要知道哪些知识?
- 如今找一份andorid工作都需要具备哪些技术
- 运维日常工作知识总结
- 织梦cms模板搭建网站,需要做哪些准备工作?
- 做好网络推广工作需要做出哪些努力?
- 运维监控利器Nagios之:Nagios的日常维护和管理
- 做好网络推广工作需要做出哪些努力?
- 服务器状态监控之三管理包的导入及日常运维举例 推荐
- 2017年5月运维管理工作上的一些问题与思考
- 做 ML 有关的工作,需要哪些技能?
- Linux平台日常运维管理
- 哪些工作需要做