可靠性和冗余:了解数据中心高可用性_IDC运维管理

数据中心的高可用性是指长时间的一个平均数值，用这个数值来表示某一运行中可修复设备或系统在这段时间内能按其功能稳定运行的时间。一般用平均无故障时间表示。可靠性是一个概率值，支某个设备或系统在一个制定运行的时间内能够稳定无故障运行的概率。可靠性随着时间变化，时间越长，可靠性越低。这通常意味着系统已经完成全部测试，定期维护和安装了冗余组件，以确保连续操作。

停机时间可能是因断电，设备故障、自然灾害、人为错误、火灾、洪水或其他原因导致。它会导致收入损失、客户、生产力、设备和品牌忠诚度。作为一个数据中心的领导者，你的目标是让你的设备在任何情况下可以连续操作。数据中心可靠性包含许多因素。在提高可用性上，人员、流程和设备都起到重要的作用。

数据中心经理通过许多措施解决可靠性，如正确的员工的招聘、培训和发展，实施和测试过程。他们也确保数据中心基础设施有内置冗余和可靠的电力、网络连接、火灾探测、水分检测、防雷、复杂的监控系统，发电机和UPS后备系统，火警探测和灭火系统，水分检测系统和防雷。

创造更高水平的冗余例如，您可以配置服务器可切换到远程服务器。这个备份过程被称为故障转移。故障转移是一种备份方法，它使用一个次要组件接管，主要组件的功能变得不可用时。次要组件可以假设在预定的维护操作，当发生意外停电时。

故障转移技术使系统容错性更强和是必要的关键操作，以确保持续的可用性。当一个主要组件可以卸载任务第二个组件，终端用户的过程是无缝的。

除了配置故障组件，高可用性也包括良好的设计因素。数据中心基础设施的各个方面必须对耐久性评估，开始全面了解每个组件的标准发布的制造商，包括容量限制和寿命。

让我们看看三个系统领域，数据中心经理应该考虑当寻找提高可靠性。

冗余系统和组件提供冗余系统和组件可以帮助IT基础设施消除单点故障。但每个数据中心经理必须确定适当的冗余级别的操作。需要深入分析到达一个有效的冗余策略。

当然，将冗余合并到一个数据中心的操作是至关重要的。但是，实现100%的冗余也有着巨大的代价。更要注意的是，不要总是觉得高水平的冗余系统意味着更可靠。虽然这一点似乎违反直觉，增加冗余组件也是在创建一个更复杂的基础设施。随着复杂性的增加，管理的基础设施变得更具挑战性。使用本地数据中心专家可以帮助你到达合适的冗余策略组织。

备份系统备份系统包括发电机的正确配置单位和不间断电源（UPS）系统。在这个系统中，每个发电机组可以被编程自动启动在功利性权力的丧失。只要足够的燃料是可用的，发电机功率整个数据中心的负载，直到实用电源恢复。

常规电力恢复时，发电机负载转移回市电供电和停止操作。过渡到从备用发电机功率时无缝配置正确。最有效的设计将结合必要的发电机供电，以及防止备用发电机应任何一个单位启动失败。

还应该建在冗余UPS系统，一个失败的模块不会影响系统的整体能力。发电机和UPS系统可以配置为自动和手动操作交接。在意外断电自动传输是至关重要的。手动转移用于数据中心设备的定期维护和测试和程序而不干扰正常操作。

监控系统虽然网络攻击得到大量的宣传，环境因素可以同样毁灭性的设备和数据中心设施。最小化停机时间的影响，数据中心操作必须检测系统集成。这些系统会提醒你在一个问题发生之前，避免它成为一个严重的事件。

动环系统将监测环境因素如以下：

温度：传感器将测量设备所产生的热量以及空调系统的进水和排水

湿度和漏水：传感器确保高湿度不会腐蚀电子组件和低水平不会引起静电。他们还监视泄漏内部冷却设备，在管道泄漏和洪水灾难。

气流组织：传感器确保正常空气流经架/从空调系统。

电压：利用传感器测定电压，检测电缆线路安全状况

供电：电力故障发生时监测系统检测电流？烟感：除了火灾、烟雾报警器也可以配置为向当地消防部门报告。

视频：实时监测数据中心的活动，特别是在敏感地区，为数据中心经理提供第一手图像，看着所发生的一切的设施，包括人员的进入和退出。

以满足组织的需求，避免昂贵的后果，数据中心必须保证连续的正常运行时间。任何计划外停机，即使只有几分钟，可以破坏你的业务操作，导致可怕的后果。即使安装市场上好的设备也不能保证业务连续性。