您的位置:首页 > 其它

系统异常重启检测-mcelog

2018-01-11 09:17 260 查看
mcelog 是Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。

比如服务器隔一段时间莫名的重启一次,而message和syslog又检测不到有价值的信息。

通常发生MCE报错的原因有如下:

1、内存报错或者ECC问题

2、处理器过热

3、系统总线错误

4、CPU或者硬件缓存错误

一般来说当有错误提示时,需要优先注意内存问题,但由于现在内存控制器是集成在cpu里,所以有个别情况是由CPU问题引起的。

安装mcelog

# yum install mcelog


# service mcelogd start


查看日志:

# less /var/log/mcelog


之前抓取的故障重启日志如下:

MCE 0

HARDWARE ERROR. This is NOT a software problem!

Please contact your hardware vendor

CPU 1 BANK 8 TSC 1193fd60c6699 [at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]

MISC 8f44960800095840 ADDR 4a9f3b1c0

MCG status:

MCi status:

Error overflow

MCi_MISC register valid

MCi_ADDR register valid

MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR

Transaction: Memory read error

Memory read ECC error

Memory corrected error count (CORE_ERR_CNT): 18

Memory transaction Tracker ID (RTId): 40

Memory DIMM ID of error: 1

Memory channel ID of error: 0

Memory ECC syndrome: f449608

STATUS cc0004800001009f MCGSTATUS 0
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  mcelog 异常重启log
相关文章推荐