上个月,北京亦庄某数据中心柴油机起火事故再次为数据中心运维管理敲响了警钟!
人云亦“云”的时代,数据中心作为重要基础设施发挥着必不可缺的重要作用,而随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心的运维难度也“更上一层楼”。尤其是当面临“突发事故”,更是考验一个数据中心的运维能力。
数据中心在国内突飞猛进只有十多年的时间,却已从只有UPS、空调和IT设备的普通机房时代,进入到囊括互联网、大数据、AI、云服务等全方位服务、动辄拥有数万机柜,自然冷、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用的新时代。这样一来,运维管理面临更大的挑战。
首先,规模超大带来的人员、组织和效率的变化。以前万平米以内的数据中心,人工巡检一次2-4小时,现在数十万平米,需要更多的运维人员分布在不同的责任区,增加了管理的难度和成本。其次,电压等级提高,安全风险增加。以往运维人员接触的是低压(低于1000V),现在供电设备、发电机、冷机都是高压供电,维护安全要求提升。此外,规模集中,导致风险集中,事故影响更大。例如之前亚马逊的数据中心事故,导致了全球大面积的服务和应用中断,损失惨重,因此运维管理的压力超前。
为了保障新时代数据中心的安全,在实际运维过程中,运营商不仅需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题,通过预警机制及相应的流程做到防患于未然,还要科学运用这些数据来为应急措施及节能措施提供可靠的指导依据。
其实,采用智能化的管理手段,可以轻松满足这些需要。以电源管理为例,领先的智能电源管理解决方案供应商力登(Raritan)提供了一整套以智能PDU为核心的机柜内部微环境和供配电监控管理以及整个数据中心平台管理方案:通过智能PDU进行实时远程电源监控,能够对相关参数包括对电流(单位:安培)、电压、功率(单位:kVA、kW)和能耗达到±1%计费级准确度,甚至可以单独对每个电源插座的上述相关参数进行监控。除了高效、可靠地分配电源之外,新的iPDU(系统)还凭借更多计算和存储功能,可支持新的应用并收集和分析IT设备的用电数据、数据中心内可用电源容量以及机柜环境健康状况;并且提供更多的传感功能与基础架构数据收集点(特别是独特的力登电子门锁)。此外,还能通过Power IQ电能管理软件对设备所处微环境的温度、湿度、气压等状况进行监控,更重要的是这些计量后的数据会被收集整理,从而为管理者提供决策参考。
力登智能PDU
包括LinkedIn、Cisco、Twitter、eBay等在内的国外知名数据中心高密度机柜配电管理都在采用力登的智能电源管理解决方案。艾瑞咨询发布的《2018年中国企业IT运维管理市场报告》显示,2016年中国数据中心运维服务市场规模达到1496.4亿元,预计到2020年,这一规模将达到2744.7亿元,年复合增长率为16.4%。智能化无疑也是中国数据中心运维管理的必然趋势,它帮助运维人员从被动响应变为主动防御,从而将运维管理从IT成本中心,向IT服务中心和IT价值中心转变。