数据中心业务中断多与运营流程有关_IDC运维管理

如今，许多关键行业在发展和运营过程中投入了大量的时间和资源进行培训和教育，如核工业，军事和民用航空，甚至是司机，而数据中心行业却没有这么多的时间和资源进行培训。

TiePoint-BKM工程设备公司运营解决方案总监David Boston表示，三分之二的数据中心业务中断与其运营流程有关，而不是基础设施系统。他说，"大多数人都意识到流程导致了大部分的停机时间，但很少有人主动全面解决这些问题。这对我们的行业来说有点独特。" Boston计划在7月12日在芝加哥艺术学院的数据中心世界会议上阐述防止数据中心中断的策略。

他建议，数据中心管理层经常被迫更换老化的基础设施系统和组件，或引起重复问题的系统，并且习惯于增加系统容量以适应负载增长。在基础设施方面，冷却系统中的机械故障是发生最多的故障，但电气系统故障却导致更多的停机事件，因为在这么短的时间很难作出迅速的反应。

他说，"这些努力都需要得到外界的工程支持，所以管理所需要的时间通常只限于项目的确定和监督。"虽然开发过程与数据中心中断的最常见的原因可能是更加费时的管理，但确实需要花费大量的时间。以下是Boston推荐的三大问题和最佳实践：

1. 设施的工作人员数量和轮班与目标的关键操作正常运行时间未能匹配。

最佳实践：量化高级IT管理人员的正常运行时间目标，确保人员匹配。Boston建议每班轮班两人，其他人员负责培训和程序项目。如果需要大的正常运行时间，则只能在偶然的停机事件可接受的情况下才使用全天值班。

2.没有具体的培训计划，包括设施开始运营前的专业练习时间。

最佳实践：指派一个团队成员作为培训项目的管理人员，并及时协调所有团队成员的每月应急反应培训。通过实践操作来轮换每个团队成员，在维护活动之前隔离基础架构系统，并在预防性维护日历上标注活动，将系统恢复到服务状态。

3.不了解具体程序不足。

最佳实践：指派一个团队成员作为程序的所有者，随时随地开发（或与顾问合作开发）几乎每个关键设施所需的100到200个关键程序。每一个都确认其技术准确性和验证，所有的程序都要让团队中最不知情的人都清楚地了解。

Boston评论道："我一直怀疑，许多公司起初都不愿意花费时间实施上述方案。

组织绝对应该在关键业务方面实施这些流程，而这些流程是对组织的收入或信誉造成负面影响的流程。然而，对于非关键业务，他建议可以采取快速恢复的方法。

原文来源：http://www.datacenterknowledge.com/archives/2017/06/05/most-data-center-outages-arent-caused-by-tech-failure/

【本文为中国IDC圈原创，转载须注明出处。】