机器学习有望为先进的数据中心管理开创新的纪元,但数据中心的许多基础设施的管理仍然还有很长的路要走,这些基础设施管理有必要从过去那种晦涩难懂基于电子表格管理管理逐渐发展演化到以自动化管理为主的方向上来。
数据中心基础设施管理(DCIM)软件的终极目标是最终实现自我管理或完全自动化的数据中心。
业界当前寄希望于人工智能驱动的管理软件(可能是基于云计算的)将会监控和控制IT和设施基础设施,以及应用程序。人工智能将实现无缝整体性地——可能是跨越多个站点——实施其监控管理。冷却散热、电源、计算、工作负载、存储和网络将动态化,以实现高效率,生产力和可用性。
通过将基于云的分析应用于从数千个地点采集的传感器数据,设施设备和IT也将在一定程度上得到自我修复,从而有助于企业数据中心得以运用其来指导和制定有针对性的预测性和预防性维护计划。备用零件将可能是经由灵巧的机器人进行订购、测试和安装,以便在需要时精确匹配,以避免发生故障失效,同时避免不必要的维护和测试。
这种以人工智能驱动的管理模式在数据中心业界可能已经有十年甚至更长的历史了,但是,整个数据中心行业目前也仅仅只是在部分的领域取得了一些进展。例如,谷歌公司在2014年透露,该公司一直在使用通过其收购英国AI专家DeepMind公司所获得的技术来改善其部分数据中心站点的基础设施管理。
正如谷歌在当时所指出的那样:鉴于数据中心内部有太多的电力和冷却设备相互作用,故而使得其基础设施的管理无疑是太过复杂而人类员工是无法胜任的。该公司当时曾表示:想象一处简化的数据中心场景:一处数据中心只有10款设备,其中每款设备有10个设置,可能将会有10到100亿款可能的电源配置,以及相关可能的其它配置,这就已经远远超出任何人工测试的真实能力的范畴了——但即使这样,其也远远低于一处实际的数据中心可能的配置。
AI驱动的效率谷歌公司使用来自其数据中心内部的成千上万个传感器所收集的历史数据信息来训练一款“深度人工神经网络集合体”。谷歌表示,将所得到的算法应用于其基础设施的管理过程,使得其实现了冷却能耗降低了40%,进而使得数据中心的整体能源消耗降低了15%.目前,该公司还在继续开发和完善机器学习的使用——人工智能应用的一个子集范畴——无疑还将进一步取得更杰出的成果。
但事实上,并非仅仅只有谷歌这样的高级云服务供应商们在进行着机器学习领域的试验项目。DCIM软件供应商Vigilent公司表示,该公司已经将机器学习整合融入其动态的冷却管理系统多年了:每一分钟,来自数百或数千个环境传感器的数据均经由无线网状网络被收集,并进入中央人工智能(AI)引擎……借助复杂的动态控制算法,然后将指令实时发送到数据中心站点的冷却系统,制定旨在优化性能绩效的决策。
在不久的将来,我们可以期待更多的DCIM供应商、托管服务和云服务提供商拥有自主研发的工具,进而将机器学习和其他形式的AI人工智能整合到管理系统中。从孤立的企业本地部署DCIM软件转移到基于云的数据中心管理即服务(DMaaS)工具(来自多个站点的数据将汇总在云中)也应该有助于加速这一过程。
从电子表格到AI的漫长过程但是,尽管人们会很容易陷入又人工智能所带来的令人兴奋且具有颠覆破坏性的潜力,但数据中心业界当前最为重要的则是亟待反思大多数数据中心将如何继续设计、构建和运行的这一严峻的现实问题。
事实上,数据中心的许多管理过程——特别是在基础设施管理方面——仍然严重的依赖于传统的设备和人工手动操作。例如,正如我们以前所强调的那样,尽管DCIM工具已经存在了将近十年了,但大量的数据中心运营商们仍然对该技术持怀疑的态度。多达50%的数据中心站点(可能是那些较小型的终端站点)仍然依靠可信但不太智能的建筑管理工具以及电子表格,书面文档和其他手动流程来运行其基础设施。
打造数字化尽管整个数据中心业界已经看到了相关软件工具——包括一些DCIM软件以及专业计算机维护管理系统(CMMS)——获得了长足的发展,可以用以帮助管理和自动化数据中心的重要管理程序的应用程序。但事实上,所谓的操作和维护(或者说O&M),其实践方案在纸质文档中或者说在设备工作人员的负责人看来,仍然是常规性的。
在数据中心运营商们开始充分利用先进的支持AI的管理工具的潜在优势之前,他们还将需要解决更为智能化的操作方面的问题。这些包括:部署企业本地或基于云的DCIM工具,用于资产管理和环境监控。这个监控和管理层将需要及时的到位,然后才能执行一些更复杂的AI操作。
安装更多的传感器和仪表。包括声学和振动装置——以便能够密切监测数据中心的温度、湿度、电能质量和其他指标。机器学习工具将需要越来越多的数据。
更好地协调IT和设施团队(由DCIM软件支持),以便更全面地管理数据中心基础设施。
尽可能数字化和自动化许多以前由人工手动操作的流程和程序。
数据中心工作人员们经历了什么?
关于广泛采用基于人工智能的数据中心管理的探讨中,另外一个显而易见的话题是:其将对于数据中心现有的设施和IT人员带来怎样的影响?正如我们曾强调过的那样,数据中心业界将朝着远程无人值守管理(“Lights-out”)的趋向发展,由此,IT和一些设施基础设施的管理会是自动化的,并且是远程执行的。随着AI工具进一步变得更加发达,这个过程可能会进一步加剧,并扩散到更多类型的站点。
任何一处数据中心设施的现场工作人员的数量都将不可避免地继续减少。但并不是总体上造成大面积的员工失业,更多的操作运营人员可能会为服务型公司工作,如从事设施管理服务,支持多家运营商和数据中心站点。
机器是否会崛起?
对于关于人工智能的潜在好处,几乎每一个与此相关的故事都有涉及。也存在着某些警告——其通常是通过科幻书籍和电影——机器横行,甚至威胁我们人类的生命。对于数据中心这个世界来说,这可能有点牵强附会,但是谷歌公司发现,AI系统所提供的答案和行动措施可能并不总是能够完美的符合最初的预期。
谷歌的算法就提高数据中心站点效率达成了一个非常简单和准确的结论:关于实现大的节能,该模式的第一个建议是:关闭整个数据中心设施。严格来说,这并不是不准确的,但其实也不是特别有用。
因此,考虑到潜在的意外后果,为人工智能驱动的管理做好准备可能会是一个缓慢而谨慎的过程,需要大量的基础性工作,可能并不是一件坏事。