很多公共云提供商在日常运营中通常不可避免地遭遇灾难性中断,而IT管理人员需要从云平台的故障和教训中学习,并将其应用到内部基础设施当中。

云平台(尤其是大型公共云平台)具有多种冗余级别,但没有一个平台能够抵御出现的意外停机。云计算平台和数据中心一样,都会遇到导致停机的问题。

组织内部部署的硬件故障和软件错误是不可避免的,但公共云为IT管理人员提供了应对这些问题的方法。公共云具有可用性集合、冗余数据中心、可用性区域和云区域,使管理人员能够在遭遇中断时更好地规划业务运营。这些策略很重要,但管理员必须设计可靠的应用程序,以利用公共云冗余功能。

组织IT资产的弹性更多地取决于应用程序而不是基础设施,这种想法与传统的思维方式不同。在过去的二十年中,管理员通过备份、复制和其他以基础设施为中心的技术保持弹性。但是对于绝大多数公共云平台来说,此策略不再有效。

近年来,云计算提供商遭受的损失已超过其承受能力。云计算提供商提供的云服务在出现中断时,行业厂商和用户似乎都在学习如何设计本地云冗余,管理人员希望将这些教训应用于传统的虚拟化数据中心冗余。

重新思考数据中心的冗余

对于大多数传统组织来说,一些基本的服务都是为防止停机而设计的。网络时间协议和网络路由等服务设计通常是高度冗余。然而,仅仅因为系统应该是冗余的,并不意味着其配置已经为利用自然冗余做好了充分准备。

一些核心服务并没有高度可用的选项。IT部门几乎总是面临必须处理的技术债务,这就要求对行为并不理想的遗留系统提供支持。例如,一些遗留的应用程序身份验证系统只能存在于服务器上,这限制了数据中心的冗余功能。

管理人员不应将所有鸡蛋放在一个篮子里。对于大多数的传统部署,最好在数据中心内部使用冗余硬件。管理人员可以通过使用不共享系统的冗余虚拟化群集来进一步采取这种策略,这类似于可以提供多个可用性区域的云计算提供商。这可以使应用程序依赖数据中心更高级别的冗余,但只有当业务需求保证该级别的冗余保护时才有价值。

通过在云平台和数据中心之间并行实施这些策略,在采用类似的传统基础设施时,使用公共云提供商的概念(如可用性区域)可能会有所帮助。这种术语使开发人员能够更轻松地理解基础设施概念,因为他们可能熟悉类似的云概念。

云计算冗余并不完美,停机中断提供了经验教训

高度冗余的系统不会免受性能下降的影响。在最近的公共云中断事件中,其目录服务无法使服务从一个区域保持运行到另一个区域。重新调整的流量超过其他区域的能力,使服务无法满足需求。

当管理人员设计数据中心冗余时,他们必须在发生中断时对负载进行规划。管理人员可能有两台服务器来支持数据中心冗余,但是其中一台服务器可能无法处理整个负载。关键是需要设计满足正常和异常状态下业务需求的系统。

许多组织都认为如果配置正确,在中断期间会发现其他情况。Netflix公司推出的Chaos Monkey系统就是人们所熟知的模拟中断事件,而其提供的经验教训是,如果管理人员没有练习处理实际的中断,他们永远不会知道IT系统将如何反应。而没有一个系统是孤岛,每个应用程序和服务都具有进一步使测试复杂化的依赖性。

停机中断在私有数据中心和公共云中并不罕见,但在数据中心内部,管理人员通常需要了解并理解系统的内部工作方式。当云计算提供商的服务出现中断时,可能会感到并没有从停机中学到什么教训,但这不是事实。虽然公共云提供商使用与传统数据中心不同的工具和方法,但有关构建和调整冗余的经验教训是通用的。

【中国IDC圈编译 未经授权禁止转载】

相关阅读:

数据安全四大风险来袭,IDC严阵以待

2019年IDC技术发展8大预测

速度、敏捷和效率,模块化数据中心都能满足

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-01-16 11:42:08
运维管理 2020年数据量将达数十万亿GB 数据中心如何应对?
据英特尔预测,全球数据总量在2020年将达到44ZB(1ZB=10亿TB=1万亿GB),而单单中国产生的数据量将达到8ZB,大约占据全球总数据量的五分之一。目前,随着云计算、大数据、物 <详情>
2019-01-16 10:48:21
运维管理 综合布线系统维护管理的五大注意要点
综合布线系统是一套用于建筑物内或建筑群之间,为计算机、通信设施与监控系统预先设置的信息传输通道。它将语音、数据、图像等设备彼此相连,同时能使上述设备与外部通信数 <详情>
2019-01-16 10:08:09
国内资讯 预测:未来5年,数据中心并购将成常态
Synergy Research Group的最新数据显示,面向数据中心领域的重大并购交易(M&A)在2018年持续攀升,不过今年交易的总价值相比2017年的峰值略有下降。该机构表示,2018年共 <详情>
2019-01-16 09:23:37
UPS电力 电力和能源监测的下一阶段
准确的电源监控对数据中心运营商至关重要。为了能够跟踪和改进其流程,确保做到正确处理至关重要,但大多数数据中心都有一个过于复杂且不准确的电源监控系统。 <详情>
2019-01-15 15:50:16
运维管理 我们为什么需要RDMA?为什么需要无损网络?
看过前面几期的技术文章,相信大家对RDMA(Remote Direct Memory Access,远程直接数据存取)和无损网络有了一定的认识,也许大家会问为什么我们需要RDMA?为什么我们需要无损 <详情>