您的位置:首页 > 其它

关于XXXX重要业务系统灾难恢复演练的相关提案

2012-05-29 11:38 288 查看
容灾技术介绍
[b]容灾的定义[/b]

首先,从一个计算机系统的角度讲,一切引起系统非正常停机的事件都可以称为灾难。大致可以分成以下三个类型:
自然灾害,包括地震、火灾、洪水、雷电等,这种灾难破坏性大,影响面广;
设备故障,包括主机的CPU、硬盘等损坏,电源中断以及网络故障等,这类灾难影响范围比较小,破坏性小。
人为操作破坏,包括误操作、人为蓄意破坏等等。
容灾(Disaster Tolerance),就是在上述的灾难发生时,在保证生产系统的数据尽量少丢失的情况下,保持生存系统的业务不间断地运行。
一个和容灾易混淆的概念是容错(Fault Tolerance),容错指在计算机系统的软件、硬件发生故障时,保证计算机系统中仍能工作的能力。容错和容灾最大的区别是,容错可以通过硬件冗余、错误检查和热交换再加上特殊的软件来实现,而容灾必须通过系统冗余、灾难检测和系统迁移等技术来实现。当设备故障不能通过容错机制解决而导致系统宕机时,这种故障的解决就属于容灾的范畴。
另外一个容易和容灾混淆的概念是灾难恢复(Disaster Recovery),灾难恢复指的是在灾难发生后,将系统恢复到正常运作的能力。灾难恢复和容灾的区别是,容灾强调的是在灾难发生时,保证系统业务持续不间断地运行的能力,而灾难恢复强调的灾难之后,系统的恢复能力。现在的容灾系统都包含着灾难恢复的功能,所以本文的讨论除了包括容灾方面的内容,还包括了灾难恢复的部分内容。

容灾的评价指标

现在工业界都以数据丢失量和系统恢复时间作为标准,对某个容灾系统进行评价,公认的评价标准是RPO和RTO。
[align=center] [/align]
RPO(Recovery Point Objective): 恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。
RTO(Recovery Time Objective): 恢复时间目标,以时间为单位,即在灾难发生后,信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小。
RPO针对的是数据丢失,RTO针对的是服务丢失,两者没有必然的联系,并且两者的确定必须在进行风险分析和业务影响分析之后根据业务的需求来确定。

容灾的分类

目前有很多种容灾技术,分类也比较复杂。但总体上可以区分为离线式容灾(冷容灾)和在线容灾(热容灾)两种类型。
所谓的离线式容灾主要依靠备份技术来实现。其重要步骤是将数据通过备份系统备份到磁带上面,而后将磁带运送到异地保存管理。这种方式主要由备份软件来实现备份和磁带的管理,除去磁带的运送和存放外,其他步骤可实现自动化管理。整个方案的部署和管理比较简单,相应的投资也较少但缺点也比较明显:由于是采用磁带存放数据所以数据恢复较慢,而且备份窗口内的数据都会丢失,实时性比较低。对于资金受限、对数据恢复的RTO(目标恢复时间)和RPO(目标恢复点)要求较低的用户可以选择这种方式。
在线容灾要求主存储设备和灾备设备同时工作,主存储设备和灾备设备之间有传输链路连接。数据自主存储设备实时复制传送到灾备设备。在此基础上,可以在应用层进行集群管理,当主存储设备遭受灾难出现故障时可由灾备设备自动接管并继续提供服务。应用层的管理一般由专门的软件来实现,可以代替管理员实现自动管理。
由于在线容灾可以实现数据的实时复制,因此数据恢复的RTO和RPO都可以满足用户的高要求。因此,数据重要性很高的用户都选择这种方式,比如金融行业的用户。

容灾演练的必要性

容灾,需要演练,尽管平时公司各重要业务系统都有自己的备份机制,但是这种备份机制仅仅是定期将应用和数据库进行备份,并没有实际恢复业务的实践,也就是说,现在的容灾机制只是在理想的条件下建立的,并没有经过实践的检验。
“实践是检验真理的唯一标准”,为了避免在发生重大险情时,相关工作人员手足无措,对公司的业务持续性运行造成影响,我们应从实战入手,磨炼我们相关人员的应急技能,完善应急预案,甚至编写容灾手册,定期进行容灾演练,防患于未然。
功夫在平时,如果我们真的能够以高标准,严要求的制定相关容灾标准和方案,现在所做的工作,在将来的某些时刻看来,将是多么的明智。

工作方法与工作要点
一、 因为不同的业务系统有不同的特点,一定要按照各业务系统的实际情况和需求制定相应的容灾方案,不能“一刀切”;
二、 要按照不同的业务系统分配相关的责任人员,规定人员时应明确相关责任,切不可职责模糊不清,且要符合相关人员的个人能力和实际情况,不可赋予其难以承担的工作,否则容灾便如“空中楼阁”,不可能落到实处;
三、 容灾方案和计划要定期维护,定期评审,定期演练,不可半途而废,不可遭受其他工作的干扰,否则就会成为“假把式”,数据的安全性和可用性,对一个信息企业来说就是生命,应当认真对待。

本文出自 “徐金龙的博客” 博客,谢绝转载!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐