数据中心为什么需要持续保持警惕和维护？_IDC运维管理

数据中心的正常运行时间对于业务成功至关重要，确保提供不间断的服务需要持续对运行情况保持警惕和维护。随着组织越来越多地部署更多关键业务应用程序，这种对持续维护和依赖基础设施的需求似乎只会增加。

虽然技术不断创新，并引入新的基础设施管理工具，但许多工具仍然无法满足业界所追求的实现自动化和降低维护成本的要求。因此，许多IT专业人员仍在投入大量精力人工处理需要调整和优化的问题。

运维人员面临的主要问题是数据中心的维护周期仍然需要人为干预。此外，数据中心运营商将大部分预算用于保持其正常运行。

这就带来一个问题，即为什么在不断引入新的工具来解决这个问题的同时，仍然需要大量的维护。人们到底错过了什么？

传统基础设施工具的不足之处

真正消除数据中心基础设施的管理负担需要具有预见性，以便在问题发生之前预测问题，同时能够提供深入洞察力的基础工作负载和资源情报，以实现更好的基础设施优化。

组织需要考虑以下四个因素，以确定采用的工具在克服令人沮丧的维护问题方面的不足之处：

•没有向他人学习

只是报告本地系统指标的分析往往提供有限的价值。相反，采用工具的目的是它能够从数千个对等系统的行为中学习，以帮助检测和诊断发展中的问题。从某种意义上说，两种想法总比一种想法要好，需要集思广益。

数据收集和分析的整体方法可以汇集来自各种各样的工作负载的观测结果。这允许在一个数据中心识别的罕见事件在另一个数据中心预先避免，并且更准确地检测更常见的事件。

•不能看到整体情况

传统工具通常只能以孤立的方式提供分析。每个设备仅提供系统状态，这只是整个过程的一部分。由于存在破坏应用程序在基础设施堆栈中任何位置突然出现的问题，因此能够跨多个层进行跨堆栈分析以获得更大的视野非常重要。这将需要关键组件，例如应用程序、计算，虚拟化、数据库、网络和存储。

•不够深入了解

预测建模需要深入的领域经验，需要了解基础设施堆栈中每个系统内的所有操作、环境和遥测参数。通用分析需要深入。但是，行业领域专家与人工智能相互配合可以使机器学习算法能够识别历史事件的因果关系，进而预测最复杂和具颠覆性的问题。

•无法积极采取行动

也许采用传统工具的大缺点是无法积极采取行动。在理想的自主操作状态下，数据中心将会自我管理、自我修复和自我优化。从本质上讲，他们应该能够避免问题或改善环境，而无需管理员的人为干预。要实现这种自动化水平，需要经过验证的自动化建议历史记录，以提供必要的信任和信心。

数据中心维护的未来

为了克服传统工具的局限性，并有效地降低维护需求，以及更好地让数据中心实现自动化，人们需要采用新一代的人工智能解决方案。这意味着利用能够观察、学习、预测、推荐并最终实现自动化的工具。

通过观察，人工智能将能够针对各种工作负载和应用程序对理想操作环境的稳态理解。深度系统遥测与全球连接相结合，可实现快速的云计算机学习，从而使人工智能具能够通过模式匹配算法快速预测问题。甚至可以根据过去的历史配置和工作负载模式为新的基础设施建模和调整优化应用程序性能。

基于这些预测分析，人工智能解决方案可以确定改善数据中心环境所需的适当响应。然后IT团队消除压力，这意味着他们不再需要通宵达旦地工作以在管理基础设施时找到问题的根源。更重要的是，如果人工智能证明是有效的，那么可以自动应用建议而无需IT管理员的干预。那么这就是实现自动化的意义。

例如HPE公司的数据中心运维，采用人工智能工具在86％的时间内自动预测和解决问题。此外，他们在存储问题上花费的时间减少了85％，甚至可以将IT存储运营支出减少79％。因此，部署人工智能以协助数据中心基础设施的优势是不可否认的。

此外，随着技术进步和经济发展，预计到2030年，高度多样化的地区将面临200万IT专业人才短缺的情况。而在不那么遥远的未来，自动化将成为数据中心管理的下一个前沿技术。

【中国IDC圈编译未经授权禁止转载】

相关阅读：

运维好数据中心的四大法宝