在过去的几个月里,出现了一些重大的信息技术故障:富国银行的业务停止了一天,阻止客户访问他们的账户;60,000名乘客因芝加哥铁路故障滞留;由于Gmail和谷歌文档的失败,世界各地的用户无法访问和使用这些产品。此外,VFEmail.net的所有客户端数据(包括备份)在今年2月完全丢失。
制定计划
这些事件和类似的信息技术问题为人们提供了两个重要信息:
任何人都可能发生信息技术中断。下一次信息技术中断造成的损害程度取决于当前的准备情况。
值得注意的是,超过60%的信息技术中断或“灾难事件”是由人为错误造成的。那么,企业如何减少下一次信息技术中断对其收入、声誉和客户造成的损害?
首先,确保企业有一个业务连续性计划(BCP),其中包括灾难恢复计划(概述企业将如何处理信息技术事务)和维护其余业务的计划(例如,如果关键渠道是确保关键人员知道发生了什么、在哪里会面、定义指挥链等)。)。
在这里,我将概述在信息技术领域取得成果的四个关键步骤:
1. 定义潜在的灾难情景
对于大多数企业来说,主要有两种信息技术灾难场景:
系统中断,网络或应用程序的一些关键部分出现故障,企业或其服务在一段时间内处于“脱机”状态。这通常是一个相对简单的恢复点,因为业务恢复在线,并且受停机影响的事务最小。数据丢失,企业丢失信息、内容或数据(企业或其客户)。从数据丢失中恢复并不总是可能的,例如,在VFEmail.net的黑客事件中,它的所有备份副本都被删除了。
为了确保企业为灾难做好准备,有必要了解这些常见中断类型的风险状况:例如,哪些功能会受到系统中断的影响?这些功能对企业的业务有多重要?中断会导致数据丢失吗?哪些其他事件会导致数据丢失?等等。
还要记住,人为错误将是这两次灾难最常见的原因(例如,在芝加哥铁路公司更新服务器时,一名工人摔倒在电路板上)。
2. 评估对企业的业务可能造成的损害
这是信息技术部门和其他领导的共同工作。企业的目标是了解如果单个数据块出现故障或各种类型的数据丢失对其业务的影响。
在这些对话中,目的是了解业务关键型应用程序之间的依赖关系(例如,企业知道需要激活支付处理应用程序,但这是否取决于库存应用程序的功能?)阐明停机对用户的影响,并评估每一分钟停机对企业业务的财务影响。
以下是衡量标准:
如果企业想采取其他措施,请确保评估包括对停机造成的声誉损害的评估。这很难计算,但它可以成为决策过程中有价值的一部分。
3. 查看当前的灾难恢复计划
一旦企业理解了它能够合理承受的停机时间,请检查其当前的灾难恢复计划。如果像大多数企业一样,他们有灾难恢复计划,但没有尝试更新或定期测试,那么是时候改变了。
查看灾难恢复计划时,请考虑以下几点:
企业测试过了吗?已经制定了许多灾难恢复计划来检查选项或满足法规要求。然而,如果一个企业不测试自己的计划,那么在一场真正的灾难中,它对企业来说毫无价值。企业无法知道它是否会真正防止因意外中断和数据丢失而造成的收入损失和声誉损害。
4. 更新并测试企业灾难恢复计划
大多数企业不定期更新和测试灾难恢复计划,这是一个大问题,因为一旦发生真正的灾难,过时的灾难恢复计划或多或少会变得毫无价值。
进行更改时,请遵循以下步骤:
指派专门人员负责灾难恢复和测试。这意味着如果有错误,将会有人负责,这将大大增加完成测试的机会。确保企业管理符合灾难恢复计划和定期压力测试的重要性。这对于获得非信息技术同事所需的参与至关重要。包括“灾难”的定义。经理们知道何时以及如何启动灾难恢复计划,以及在停机一小时后?有一天?您还可以确定联系人,如果不是,还有谁可以处理。制定防灾规则。前面提到的芝加哥铁路灾难的部分原因是该公司在高峰时段升级了服务器。这是一个不可思议但可以避免的错误:如果工人没有在半夜摔倒在电路板上,就不会有这么多客户受到影响。包括沟通计划。在灾难期间(“发生了什么”)和灾难之后(“发生了什么以及正在采取什么措施来提高未来绩效”)保持利益相关方的透明度,将极大地有助于减轻灾难可能造成的声誉损害。
有效的灾难恢复就是细节
尽管每个企业都应该拥有并测试灾难恢复计划,但企业满足其需求或应对灾难的方式并不相同。对于任何企业来说,灾难恢复都应该基于两个方面:风险状态和从事件中恢复的能力。
为了确保企业的下一次信息技术中断对其客户、收入和声誉造成尽可能小的损害,它需要花时间了解可能出现的问题的具体情况以及这些问题将如何影响其客户,并制定灾难恢复计划以将这种影响降至最低。
极牛网精选文章《如何有效地管理不可避免的IT中断》文中所述为作者独立观点,不代表极牛网立场。如若转载请注明出处:https://geeknb.com/5294.html