进入7月,运维人期待的7·24日运维日马上就要到了,每年到这个时候,我们就开始重新审视数据中心运维的问题与难点。随着云计算逐步落地和深入应用,云数据中心运维这个在10年前就已经在讨论的问题仍然热度不退。
关注智能自动化运维的趋势与难点
智能自动化运维是云数据中心时代尤为重要的趋势。公有云让基础设施资源更集中,企业放弃自建数据中心转而使用公有云,基础设施资源因此集中到了第三方服务商的手中。
这一定程度上使得企业运维轻量化,更注重上层应用的运维,后端较重的基础设施运维转嫁集中到了第三方公有云服务商的身上。基础设施运维的集中化,大体量化为自动化运维提供了良好的生存空间,企业前端的轻量的运维甚至也可以通过大数据以智能可视化的方式呈现出来。
多平台融合的导致故障点监测困难
有业界人士称,相对于传统IT架构,云数据中心运维的管理对象主要分为五大类,分别是:
机房环境基础设施部分,包含风火水电等;各种设备,包括存储、服务器、网络设备、安全设备等硬件资源;系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源及业务数据;管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等
从中可以看出,一项云数据中心向外界提供服务是多方服务融合的结果。因此,当面临一个故障时,如何在诸多服务中准确追溯到故障点,是运维人员需要关注的另一个问题。
避免人为失误与网络威胁
前不久,中国某大型云厂商因运维人员操作失误启动了一个BUG,导致一些客户访问官网控制台和使用MQ、NAS等多项产品功能出现问题,造成了较大影响.实际上,除了自然灾害等原因,数据中心运维出现的一些安全问题极有可能是人为导致的。
出了要避免人为上的失误,来自网络的威胁也不可小觑。数据中心资源的集中化让我们逐渐感受到,数据中心故障的大型化趋势越来越明显,从网络安全的角度来说一个漏洞被利用,就可能会造成较大的数据丢失甚至设备停机事故。