系统异常重启检测-mcelog
2018-01-11 09:17
260 查看
mcelog 是Linux 系统上用来检查硬件错误,特别是内存和CPU错误的工具。
比如服务器隔一段时间莫名的重启一次,而message和syslog又检测不到有价值的信息。
通常发生MCE报错的原因有如下:
1、内存报错或者ECC问题
2、处理器过热
3、系统总线错误
4、CPU或者硬件缓存错误
一般来说当有错误提示时,需要优先注意内存问题,但由于现在内存控制器是集成在cpu里,所以有个别情况是由CPU问题引起的。
安装mcelog
查看日志:
之前抓取的故障重启日志如下:
MCE 0
HARDWARE ERROR. This is NOT a software problem!
Please contact your hardware vendor
CPU 1 BANK 8 TSC 1193fd60c6699 [at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]
MISC 8f44960800095840 ADDR 4a9f3b1c0
MCG status:
MCi status:
Error overflow
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Transaction: Memory read error
Memory read ECC error
Memory corrected error count (CORE_ERR_CNT): 18
Memory transaction Tracker ID (RTId): 40
Memory DIMM ID of error: 1
Memory channel ID of error: 0
Memory ECC syndrome: f449608
STATUS cc0004800001009f MCGSTATUS 0
比如服务器隔一段时间莫名的重启一次,而message和syslog又检测不到有价值的信息。
通常发生MCE报错的原因有如下:
1、内存报错或者ECC问题
2、处理器过热
3、系统总线错误
4、CPU或者硬件缓存错误
一般来说当有错误提示时,需要优先注意内存问题,但由于现在内存控制器是集成在cpu里,所以有个别情况是由CPU问题引起的。
安装mcelog
# yum install mcelog
# service mcelogd start
查看日志:
# less /var/log/mcelog
之前抓取的故障重启日志如下:
MCE 0
HARDWARE ERROR. This is NOT a software problem!
Please contact your hardware vendor
CPU 1 BANK 8 TSC 1193fd60c6699 [at 2000 Mhz 1 days 18:56:49 uptime (unreliable)]
MISC 8f44960800095840 ADDR 4a9f3b1c0
MCG status:
MCi status:
Error overflow
MCi_MISC register valid
MCi_ADDR register valid
MCA: MEMORY CONTROLLER RD_CHANNELunspecified_ERR
Transaction: Memory read error
Memory read ECC error
Memory corrected error count (CORE_ERR_CNT): 18
Memory transaction Tracker ID (RTId): 40
Memory DIMM ID of error: 1
Memory channel ID of error: 0
Memory ECC syndrome: f449608
STATUS cc0004800001009f MCGSTATUS 0
相关文章推荐
- linux服务器硬件报错,系统异常重启检测-MCElog
- Coursera-吴恩达-机器学习-(第9周笔记)异常检测和推荐系统
- 斯坦福大学(吴恩达) 机器学习课后习题详解 第九周 编程题 异常检测与推荐系统
- solaris系统下使用asm的bug (solaris系统248天未重启导致asm进程异常)
- 基于PySpark的网络服务异常检测系统 阶段总结(一)
- Machine Learning第九讲[异常检测] --(二)创建一个异常检测系统
- 基于时间序列的异常检测系统的实现思路之一
- 机器学习公开课笔记(9):异常检测和推荐系统
- 如何开发一个异常检测系统:使用什么特征变量(features)来构建异常检测算法
- Machine Learning第九周笔记:异常检测与推荐系统
- Andrew NG 机器学习 笔记-week9-异常检测和推荐系统(Anomaly Detection and Recommender Systems)
- Coursera机器学习(Andrew Ng)笔记:异常检测与推荐系统
- Coursera-吴恩达-机器学习-(编程练习8)异常检测和推荐系统(对应第9周课程)
- Anomaly Detection and Recommender Systems[异常检测&推荐系统]
- Andrew Ng机器学习笔记week9 异常检测、推荐系统
- android 应用异常可以引起android系统崩溃重启
- 异常检测与推荐系统 机器学习基础(8)
- 【小工具】shell检测进程状态异常自动重启(补OOM检测重启)
- 使用 Perl 检测 系统进程,实现进程意外退出重启
- Oracle数据库案例整理-Oracle系统运行时故障-RAC异常重启