您的位置:首页 > 其它

IT人员如何化解突发性事故

2016-07-25 23:35 288 查看
在IT运维的职业生涯中,如果做为一个系统运维工程师你要没遇到几次大的事故,你都不好意思说做过IT,很多IT运维者最怕的是出问题,可是出问题能镇定的化险为夷,不仅可以凸显你的业务水平,而且可以锻炼你的应变能力和提高你技术能力,有些突发事故的过程可以说是IT极其宝贵的经验。 当然我们并不期望出现问题,我说的这些问题是指你不可控的一些意外的问题;比如说一台服务器的无热盘点raid5坏了一块硬盘因没有注意,后面又坏一块导致系统无法启动,这种问题属于你个人的失误,这是可控问题;但如果同时坏了两块,只说明点背,算是意外问题。比如空调失灵导致机房过热死机,也算意外问题,比如说机房忽然断电又无法短期恢复也算意外问题。 针对这些意外问题,我们该怎么做才能做到防微杜渐或者亡羊补牢?――――――――――――准备篇――――――――――――――1、机房相关信息的准备:
电力:UPS启动关闭操作指南、市电的空开位置标识、机柜:机柜布局图、内部网络连接图、外联网络连接图空调:空调性能信息、空调的供电开关说明图2、服务器类信息准备:服务器的硬件配置表、IP地址表、管理员帐号信息表、关键应用服务检测表、虚拟机和物理服务器对于关系表、服务器启动顺序表3、网络信息防火墙策略说明、核心层和二层交换机连接端口表、各交换机登录管理地址及帐号信息。4、联系人包含 “设备厂商应急联系人、物业关键联系人、运营商业务经理、IT相关责任人、行政人员“的所有联系方式。5、常见关键问题FAQ以上的信息准备完毕,记得一定要周期性更新哟,否则无用。另外相关信息备份在企业外部例如手机里,便于随时随地可查询。――――――――――――监控篇――――――――――――――1、对所有关键设备进行硬件监控。监控软件尽量不使用系统的应用层去监控,使用物理接口监控,像HP 的ILO监控、IPMI监控、SNMP监控。2、关键服务监控3、关键网络设备监控以上监控节点的报警收件人指向相关联系人(IT内部人员),为避免企业内部监控系统出现异常问题导致无法及时报警,建议将监控在托管服务器上做冗余监控。―――――――――――――流程篇―――――――――――――任何事故都有其紧急程度,根据应用的重要性划分等级。相关流程如下,灵活应用。根据监控状态判断故障节点---先确定事故等级性及影响范围----确定事故解决的时间---邮件或电话通知相关受影响人--告知IT内部人员应急响应方案---根据准备篇收集的信息联系相关人或自行解决问题----解决完毕告知相关受影响人----对事故前因后果进行总结性汇报给领导 总之,IT人要不打没准备的仗,问题来了不要怕,冷静看待,见招拆招;当然如果您所有的关键应用的都有冗余备份可以顺利切换,我想你可以高枕无忧,毕竟能做到自动化恢复那将是极好的。
微信号:ithelpyou ,请关注我,我将给您提供不一样的IT帮助。




本文出自 “IT解决方案” 博客,请务必保留此出处http://itjiejue.blog.51cto.com/450185/1829912
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: