在云计算时代,IT系统建设越来越成为企业发展至关重要的一环。业务系统,以及支撑业务系统运行的基础设施通常是企业关注的首要目标;然而,保障业务健康运行的背后“功臣”——运维系统同样至关重要,因为每一次IT系统的转型,运维系统和业务保障都是最艰难的部分。在当前企业IT系统向云架构转型的时刻,运维系统再一次面临着新的挑战。所以在数据中心运维的时候,运维人员应该注意哪些问题?
云计算时代,数据中心运维应该注意一下几点:
1. 关注智能自动化运维的趋势与难点
智能自动化运维是云数据中心时代尤为重要的趋势。公有云让基础设施资源更集中,企业放弃自建数据中心转而使用公有云,基础设施资源因此集中到了第三方服务商的手中。
这一定程度上使得企业运维轻量化,更注重上层应用的运维,后端较重的基础设施运维转嫁集中到了第三方公有云服务商的身上。基础设施运维的集中化,大体量化为自动化运维提供了良好的生存空间,企业前端的轻量的运维甚至也可以通过大数据以智能可视化的方式呈现出来。
2. 避免人为失误与网络威胁
前不久,中国某大型云厂商因运维人员操作失误启动了一个BUG,导致一些客户访问官网控制台和使用MQ、NAS等多项产品功能出现问题,造成了较大影响。实际上,除了自然灾害等原因,数据中心运维出现的一些安全问题极有可能是人为导致的。
出了要避免人为上的失误,来自网络的威胁也不可小觑。数据中心资源的集中化让我们逐渐感受到,数据中心故障的大型化趋势越来越明显,从网络安全的角度来说一个漏洞被利用,就可能会造成较大的数据丢失甚至设备停机事故。
3. 多平台融合的导致故障点监测困难
有业界人士称,相对于传统IT架构,云数据中心运维的管理对象主要分为五大类,分别是: 机房环境基础设施部分,包含风火水电等;各种设备,包括存储、服务器、网络设备、安全设备等硬件资源;系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源及业务数据;管理工具,包括了基础设施监控软件、监控软件、工作流管理平台、报表平台、短信平台等
从中可以看出,一项云数据中心向外界提供服务是多方服务融合的结果。因此,当面临一个故障时,如何在诸多服务中准确追溯到故障点,是运维人员需要关注的另一个问题。
云运维作为云计算必不可少的组成部分,会越来越展示出其重要性,成为云计算的核心竞争力之一。下一步将加大人工智能在云运维的投入与实践,让数据中心机器人融入更多的运维业务场景,替代传统的手工操作,提供高度自动化和智能化的“无人值守”式云数据中心运维解决方案。