一次服务器故障
2014-01-05 16:07
357 查看
大周末的,接到同事电话,说服务器不通了,服务器在公司机房里,没有远程控制卡,说让我去看一下,接上显示器,发现满屏幕的“sd 0:1:1:0 rejecting I/O to offline device”,无法远程连接服务器,我就按电源重启了。
重启后能正常使用。
把这个报错到网上查了一下说这个sd 0:1:1:0 被踢下线了。
到系统下用cat /proc/scsi/scsi 一看是
Host: scsi0 Channel: 01 Id: 01 Lun: 00
Vendor: LSILOGIC Model: Logical Volume Rev: 3000
Type: Direct-Access ANSI SCSI revision: 02
####是sd 0:1:1:0 是raid
/usr/bin/lsiutil 查看raid也是好的
1 volume is active, 2 physical disks are active
Volume 0 is Bus 0 Target 1, Type IM (Integrated Mirroring)
Volume Name:
Volume WWID: 00566177e1862e87
Volume State: optimal, enabled
Volume Settings: write caching disabled, auto configure
Volume draws from Hot Spare Pools: 0
Volume Size 139236 MB, 2 Members
Primary is PhysDisk 1 (Bus 0 Target 2)
Secondary is PhysDisk 0 (Bus 0 Target 8)
此时看了一下 tail -f /var/log/messages
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 68 97 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=ec999440)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: sd 0:1:1:0:
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 69 47 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832d00)
参考http://ilinuxkernel.com/?p=386
说这个报错和“该信息与硬盘是否故障无直接联系”
再看磁盘io
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sdc 12.04 8.12 7.88 5.94 130.70 111.66 17.54 1.02 74.05 5.06 6.99
sdc1 0.05 0.00 0.01 0.00 0.12 0.00 15.08 0.00 2.70 1.85 0.00
sdc2 0.04 0.00 0.00 0.00 0.08 0.00 61.22 0.00 8.44 8.22 0.00
sdc3 0.12 2.33 0.10 1.38 4.45 29.68 22.97 0.27 179.59 18.91 2.81
sdc4 0.00 0.00 0.00 0.00 0.00 0.00 3.50 0.00 14.25 14.25 0.00
sdc5 8.74 0.17 0.66 0.08 24.09 1.55 34.38 0.05 65.53 7.46 0.56
sdc6 1.50 0.82 0.28 0.56 6.60 10.77 20.70 0.15 179.76 23.79 2.00
sdc7 0.45 1.08 0.27 1.21 3.32 18.19 14.50 0.09 59.13 15.11 2.24
sdc8 1.13 3.72 6.54 2.71 92.02 51.47 15.51 0.47 50.67 5.97 5.52
根据上面的情况也没看出问题在哪? 还得请大牛们指点指点
参考:
Linux内核I/O系统报错日志与硬盘故障对应关系 http://ilinuxkernel.com/?p=386
linux IO 调度算法 http://blog.csdn.net/theorytree/article/details/6259104
iostat 分析http://www.php-oa.com/2009/02/03/iostat.html
本文出自 “运维之路” 博客,请务必保留此出处http://wsq51i.blog.51cto.com/950571/1348692
重启后能正常使用。
把这个报错到网上查了一下说这个sd 0:1:1:0 被踢下线了。
到系统下用cat /proc/scsi/scsi 一看是
Host: scsi0 Channel: 01 Id: 01 Lun: 00
Vendor: LSILOGIC Model: Logical Volume Rev: 3000
Type: Direct-Access ANSI SCSI revision: 02
####是sd 0:1:1:0 是raid
/usr/bin/lsiutil 查看raid也是好的
1 volume is active, 2 physical disks are active
Volume 0 is Bus 0 Target 1, Type IM (Integrated Mirroring)
Volume Name:
Volume WWID: 00566177e1862e87
Volume State: optimal, enabled
Volume Settings: write caching disabled, auto configure
Volume draws from Hot Spare Pools: 0
Volume Size 139236 MB, 2 Members
Primary is PhysDisk 1 (Bus 0 Target 2)
Secondary is PhysDisk 0 (Bus 0 Target 8)
此时看了一下 tail -f /var/log/messages
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 68 97 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=ec999440)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: sd 0:1:1:0:
Jan 5 12:29:00 spider58 kernel: command: Write(10): 2a 00 04 56 69 47 00 00 10 00
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=f7832800)
Jan 5 12:29:00 spider58 kernel: mptscsih: ioc0: attempting task abort! (sc=f7832d00)
参考http://ilinuxkernel.com/?p=386
说这个报错和“该信息与硬盘是否故障无直接联系”
再看磁盘io
Device: rrqm/s wrqm/s r/s w/s rsec/s wsec/s avgrq-sz avgqu-sz await svctm %util
sdc 12.04 8.12 7.88 5.94 130.70 111.66 17.54 1.02 74.05 5.06 6.99
sdc1 0.05 0.00 0.01 0.00 0.12 0.00 15.08 0.00 2.70 1.85 0.00
sdc2 0.04 0.00 0.00 0.00 0.08 0.00 61.22 0.00 8.44 8.22 0.00
sdc3 0.12 2.33 0.10 1.38 4.45 29.68 22.97 0.27 179.59 18.91 2.81
sdc4 0.00 0.00 0.00 0.00 0.00 0.00 3.50 0.00 14.25 14.25 0.00
sdc5 8.74 0.17 0.66 0.08 24.09 1.55 34.38 0.05 65.53 7.46 0.56
sdc6 1.50 0.82 0.28 0.56 6.60 10.77 20.70 0.15 179.76 23.79 2.00
sdc7 0.45 1.08 0.27 1.21 3.32 18.19 14.50 0.09 59.13 15.11 2.24
sdc8 1.13 3.72 6.54 2.71 92.02 51.47 15.51 0.47 50.67 5.97 5.52
根据上面的情况也没看出问题在哪? 还得请大牛们指点指点
参考:
Linux内核I/O系统报错日志与硬盘故障对应关系 http://ilinuxkernel.com/?p=386
linux IO 调度算法 http://blog.csdn.net/theorytree/article/details/6259104
iostat 分析http://www.php-oa.com/2009/02/03/iostat.html
本文出自 “运维之路” 博客,请务必保留此出处http://wsq51i.blog.51cto.com/950571/1348692
相关文章推荐
- http://blog.chinaunix.net/uid-8874157-id-2012678.html
- 在Fedora 20下编译安装QEMU
- 使用Clojure脚本扩展Java项目
- 结构体基础
- javascript学习(11)——[设计模式]工厂模式
- javascript学习(11)——[设计模式]工厂模式
- 字典:当索引不好用时2 - 零基础入门学习Python026
- 读取Excel错误,未在本地计算机上注册 oledb.4.0
- HelloWorld 最简单的Java程序
- Hibernate 中 映射文件的模板
- 庞峰Opencv学习(三)--灰度直方图
- Oracle 列顺序测试
- 实现信号量(一) 开篇
- CreateTextFile 文件的使用
- 投影字DropShadow
- MySQL 5.1.73升级为MySQL 5.5.35详解 推荐
- js实现web网页版台球游戏
- 黑马程序员-Java基础,Java集合Collection和Iterator接口
- 【黑马程序员】Java基础09:File类和递归
- android编译时生成了一个 main.out.xml文件,无法编译的解决办法