应对数据中心常见问题的IT监控策略_IDC运维管理

作为一个数据中心管理员，如果缺乏更大的视野，很容易陷入到千篇一律的解决问题的工作中。然而，数据中心的问题会从运行的方方面面产生，从操作故障到宏观经济问题。与其等待不可避免的问题出现，管理员应该积极的收集数据、分析趋势、做好应对准备。

本文介绍3个数据中心常见的问题，管理员通过IT监控操作，能够提前做好准备处理这些问题。

操作问题

如果修复BUG的周期长达12个月甚至更长，这清楚的表明了现有系统（例如COBOL）以及造成如此长周期的操作流程应该被替换掉了。数据中心管理员应该考虑将这些已有系统替换，可以替换为一个SaaS服务，也可以是用SQL和C重写。如果替换系统时，公司并没有意愿更改商业流程，那你将付出巨大开销，并且很大比例的软件将会运行得很低效。特定部门迅速增长的系统更改请求，即是一个警告，表明一些员工抗拒改变商业流程。

在操作层面上，管理员最重要的工作，就是收集趋势数据，了解数据中心正在发生什么。如果一项工作需要原先两倍的时间才能执行完，则必须弄清楚为什么会这样。管理员需要随时监控存储、网络和服务器的运行状态，通过这些监控结果分析出系统瓶颈和错误。一个好的IT监控系统将需要花费大量金钱和操作人员时间，但一个坏的靠暴力收集数据的系统会收集过多的数据，造成信息过载，而非找到问题的根源。

更新存储

似乎存储更新的简单解决方法就是当存储池满了后，买更多的硬盘，但选择正确类型的存储器是至关重要的，例如SSD，SATA大容量驱动器，或网络存储器。你需要通过存储监控了解每一层级存储的容量使用率和IOPS趋势。因为目前好的策略是将较少用到的数据从主存储器层移出，因此判断是否需要购买更多硬盘的方法即是根据自动计算的趋势数据判断哪些数据是较少被访问的。如果你有许多存储数据探针，趋势分析将帮助你将存储驱动器分配到最需要他们的地方去。

企业级存储将变得更为复杂。它已经从简单的主/从硬盘驱动器（HHD）变为一堆SSD和大容量SATA HDD的组成。未来2年将出现非易失性内存规格（NVDIMM）的存储器，3D XPoint非易失性存储器标准（NVMe）的SSD，高容量SATA SSD和越来越多的网络和集群选择，例如虚拟存储区域网络（SAN），超融合系统和远程直接内存访问链接。当这些技术形成主流后，自动化的IT监控将是唯一的优化运维的方式。

更先进的网络

网络也会造成数据中心一系列的问题。采用模版和策略来控制虚拟局域网建立和关闭将变得更为普遍，并将会被用到业务部门用户的云服务配置中去。

然而这些用户并没有义务做优化网络的工作，当一个新的云服务部署完后，他们仍然可能会继续使用传统的较松散的终端。使用自动化工具找出网络瓶颈对改善用户使用体验将非常有用。监控一条链路潜在的和承载吞吐量的趋势也是非常重要的。这可以揭示出哪些工作流量需要被重新分配，并且验证这些改变是否有效。

随着云和集群编配技术的进步，智能负载平衡方法将变得更为重要，它能够将需要消耗大量资源的应用实例分布到只有较轻网络负载的环境中。服务器还有一些额外的模块需要被监控，包括动态内存（DRAM）和CPU占有率。很快将出现一些云配属工具，能够指出系统热点，并自动化的进行负载平衡。

目前这还是一个正在发展的方向，公司还需要根据历史数据，以每个应用为单位进行平衡决策。任何一个好的IT监控软件都具备当某些值超过门限后报警的功能。找到并使用这些软件，能够帮助快速定位问题。一些工具能够将终端上的一个慢速工作的报警转变为一个秒级更新的应用进程列表中的标记，无需人工从实际系统进程树中去深入分析，例如eG Innovations Enterprice 6.1和PrinterLogic公司的Printer Installer.

总的来说，用好IT监控软件和趋势分析工具，能够使IT管理员能更好的响应数据中心问题，并快速处理现实危机。