当组织的IT硬件不在内部部署数据中心运营时,解决其发生的故障可能很棘手。因此,这些组织必须与托管数据中心服务提供商签署完善的服务等级协议(SLA),以确保快速响应。

托管提供商主要提供数据中心的空间、电源、冷却、物理安全性,但托管服务也面临数据中心停机期间响应速度较慢的潜在缺点。采用托管服务的组织必须仔细规划重要数据的存储位置,并遵循服务级别协议,以大程度地减少托管数据中心服务中断的影响。

当然,组织可以自己建设和运营内部部署数据中心,拥有、建设和维护基础设施和设备,雇佣员工,实施政策和运行应用程序,并设定应对任何中断所需的优先级。当遇到问题时,组织领导者知道让谁处理,并且员工可以专注于组织的利益。

作为托管服务商客户的组织来说,这些控制权交给托管服务提供商,他们负责故障排除并与客户保持联系。但是托管服务提供商通常是为了自己的商业利益而运营的企业,有时并不能满足托管客户的需求。

 是什么导致托管数据中心停机?

托管服务提供商以远程管理的数据中心为核心,通常可以将数据中心的停机追溯到许多可能影响内部部署数据中心面临的相同问题。停机的原因一般分为四类:电源、人员、灾难、连接。

1.电源。托管服务提供商通常在其数据中心内实现更大的弹性,例如备用电源系统。其备用电源包括为服务器和机架设备供电的不间断电源(UPS),以及在市电中断时可以为数据中心设施供电的工业级备用发电机。但是,UPS故障、发电机启动或维护不足以及备用电源系统的其他问题,可能会在市电停电时导致托管客户的业务中断。

2.人员。人为错误是造成数据中心停机的主要原因。例如配置错误的路由器、服务器、身份验证系统以及硬件和软件基础设施其他错误可能导致客户无法访问系统。内部和外部攻击或其他恶意活动(如拒绝服务攻击)也可以干扰或破坏客户所托管的工作负载。

3.灾难。客户希望托管数据中心设施具有更强的弹性和更高的可靠性,因此通常希望远离自然灾难(飓风、洪水、地震等)和人为灾难(火灾、车祸和战争)。虽然谨慎的托管措施应该可以减少这种风险,但不可能完全避免和消除,而不可预见的灾难会使托管数据中心设施瘫痪或毁坏。

4.连接。托管服务本质上是远程实施的,而WAN或互联网连接对于托管服务提供商至关重要。大多数托管服务提供商都允许客户使用一个或多个可用电信提供商的服务。电信基础设施也不完善,也不是100%可靠的,这可能会导致使用某些电信服务的客户连接中断。在这种情况下,必须由电信提供商(而不是托管服务提供商)来恢复服务,但是对这些托管客户的影响可能像发生火灾或洪水一样严重。

  对内部和外部场所进行故障排除

作为托管数据中心客户的组织在解决托管数据中心发生的故障尤其具有挑战性,因为解决问题的过程首先取决于识别/确定问题,然后确定托管数据中心提供商(或客户)是否对故障和纠正措施负责。

  传统托管数据中心

例如,假设客户的工作负载在传统托管数据心设施中运行,并且托管服务提供商只提供空间、电源、制冷和其他服务。如果数据中心设施出现故障(例如电源故障),则客户将依赖托管提供商提供的电力服务,并且托管服务提供商将根据现行服务等级协议(SLA)的条款负责查找和纠正电源问题。而根据问题的严重程度,修复过程可能需要数小时甚至数天的时间。

但是,客户仍将负责部署到托管服务提供商的所有服务器、存储、网络和其他业务设备。服务器、存储子系统、网络交换机故障,甚至是应用程序故障(软件错误)可能是造成停机的原因。客户将采用系统管理工具监视和报告硬件和软件的状态,他们有责任找到并解决问题,可能是通过重新启动服务器、更换服务器或采用其他潜在的修复方法。

如果客户确实要负责修复,他们将面临完成工作的挑战。对出现故障的应用程序进行修复和排除可能需要实际操作,这可能需要数小时来部署人员和执行修复所涉及的实际工作。在某些情况下,托管服务提供商的员工将会提供帮助,但需要客户额外付费。

托管或托管主机

在托管数据中心或托管方案中,托管服务提供商将提供数据中心空间、服务器、存储设备、网络以及其他基础设施,而客户可以从托管服务提供商那里租用。但是,托管服务提供商对整个基础设施负有全部责任,客户不用接触或关注托管服务提供商的基础设施。如果托管数据中心设施或计算资源发生故障,则托管服务提供商必须处理并发布停机通知,然后按照服务等级协议(SLA)中规定的条款对故障进行故障排除和补救。在这种情况下,客户通常会通过已建立的支持渠道(例如电子邮件、电话或门户网站)将故障告知托管服务提供商(例如某个应用程序无法正常工作)。

如果问题实际上出在客户的应用程序而不是托管服务提供商的基础设施(即托管数据中心设施正常运行,但是客户的应用程序遭受崩溃或其他异常),那么托管服务提供商就没有更多的义务来确定客户的应用程序是否正常工作。客户必须具有适当的监视以跟踪应用程序运行状况或了解应用程序性能。当应用程序出现问题时,客户的IT团队可以选择远程操作重新启动应用程序,或者要求托管服务提供商帮助采取纠正措施。

托管数据中心支持的类型

当出现问题时,组织必须找到快速且经济高效的方法来解决问题,同时保持行业标准或法规遵从性所要求的数据完整性和工作负载安全性。客户可以使用四种类型的支持:

1.工作人员。当客户将自己的设备部署在托管设施中时,可能会自己雇佣IT员工管理和维护,而不是托管服务提供商。这有助于确保IT任务的执行符合客户的最佳利益,但是其员工到路途遥远的托管数据中心工作可能既耗时又会增加成本。

2.远程控制。客户可以聘请托管服务提供商的员工协助开展各种IT任务。这些任务可能包括物理设备故障排除、更换、配置。通常根据突发事件或请求远程操作,并且其费用将添加到客户的每月账单中。

3.远程管理。现代IT系统管理工具擅长通过网络访问硬件设备以执行常见的管理任务。这些工具通常可以重新启动服务器、重新启动应用程序、迁移虚拟机以及备份和恢复数据。远程管理在管理日常任务时非常有效,无需客户派遣员工在托管数据中心工作。

4.托管服务。托管服务提供商通常提供客户可以参与的一系列服务,例如托管电子邮件。某些服务费用可能会添加到每月的托管费用中,而某些服务(例如备份)可能会带来额外的费用。但是,托管服务提供商通常可以参与添加新服务,更改现有服务或减少或取消不需要的服务。

 减轻数据中心托管设置中的不确定性

托管服务提供商可能会给客户带来更多不确定性和复杂性。在偏远地区运营的托管数据中心设施可能会受到地缘政治不确定性和安全性问题的影响。托管服务提供商管理成本的愿望可能会削减支持人员数量,从而可能降低其响应能力。托管服务提供商的合并和请求可能会影响其日常运营。

客户可以通过谨慎的应急计划和大量监控措施来缓解这些托管问题。常见步骤包括:

•工作负载适用性。必须评估每个应用程序在托管数据中心中的适用性。由于法规遵从性、安全性、性能或其他问题,并非所有应用程序都适合托管。有些工作负载应该保留在内部部署数据中心。

•遣返。如果托管服务失败或证明托管不适合应用程序时,则迁移到托管数据中心的每个工作负载都应采取遣返措施,可以在组织的内部部署数据中心恢复应用程序。

•备份和灾难恢复。托管工作负载并不保证可用性。重要的工作负载可能需要额外的托管服务投资,以建立备份和灾难恢复框架,以确保应用程序在托管服务中运行时的可用性。托管服务提供商在默认情况下不提供此类服务。

•详细监控。使用监视工具(例如应用程序性能监视)和用于重要工作负载的工具来跟踪应用程序的运行状况和性能,以及托管服务提供商及其资源的可用性。了解托管服务提供商的服务等级协议(SLA),并使用监控结果来验证托管服务提供商是否遵守服务等级协议(SLA)。

•寻求帮助。托管服务提供商将提供各种帮助台以寻求支持。客户应该清楚了解可用的帮助,如何请求帮助,以及在必要时如何采取行动并及时采取纠正措施。

归根结底,托管服务提供商是客户的业务合作伙伴(而不是员工),并且托管服务提供商提供的资源和服务不能被认为是理所当然的。客户有责任管理自己在托管数据中心环境中运行的工作负载,并且需要能够与托管服务提供商协作以维护每个工作负载的可用性和性能。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-06-24 09:49:44
运维管理 疫情当下,如何减少人员轻松实现网络基础设施管理?
作为一名运维从业者,必须要讲讲疫情为运维工作带来了哪些变化! <详情>
2022-04-18 13:22:10
大数据资讯 高效安全更及时,新华三远程运维保障企业发展“生命线”
当下的IT运维市场,远程运维服务悄然兴起,催生着企业IT运维服务模式的新变革。 <详情>
2022-01-17 14:31:58
运维管理 引领运维高效革新之路,新华三荣获ITS 2021年度IT智能运维领军企业奖
作为新华三智能运维领域中的拳头产品,U-Center统一运维平台基于开放容器底座,实现从系统底层架构到上层应用的全面智能化改造,具备AI赋能(AIOps)、全域融合(Aggregation) <详情>
2021-12-30 13:55:35
国际资讯 西澳热浪 引发当地数据中心中断
由于连续四天温度高于40°C,数千人遭遇断电。而这种影响不仅仅限于居民生活,澳大利亚互联网服务供应商iiNet就表示,自圣诞开始便无法支持用户访问其网站和相关电子邮件服 <详情>
2021-11-10 14:16:06