本周,某云存储公司的部分客户反应存储的图片无法正常显示或者打开。经与故障IDC服务商核实,该故障是由于该云服务商下的IDC基础设施合作单位的部分机柜掉电导致。同时,掉电还影响到一台城域网核心交换机,间接影响到另外一个用户的业务运行。这一事故引发了行业热议和思考——为什么部分机柜会掉电?如何避免此类事故再次发生?

掉电

造成部分机柜掉电的原因可能有:

机柜可靠性等级低,并没有实现真正的独立双路供电,只有一路PDU或者两路PDU来自同一个开关供电;

机房安全性等级低,没有机柜电流监测和报警,部分机柜电力负荷率偏高,但未提前发觉;

PDU缺少分插口分断故障的能力,单台服务器故障短路导致PDU上端总开关越级跳闸,其下PDU多条同时失电;

天气炎热,多台机柜为同一类系统正好负荷率同时升高导致同时超载跳闸掉电;

天气炎热,机房散热能力下降,配电系统容量下降,跳闸;

违规使用PDU插座,比如插上测试插头或者个人手机充电或者临时改造或者施工等,同时又正好碰见短路故障;

因此,可靠、高效、完备的电源管理解决方案是保障数据中心生产力及业务连续性的根基,而PDU在其中担当了重要的角色。

数据中心掉电

如今,无论是外部大环境的大数据、IT消费者化、虚拟化以及云计算的发展趋势,还是内部关于传递完全可信、安全和灵活性服务的需求,都对数据中心的运营方式提出了更高的期待与要求。数据中心的电源供给与分配不能再仅仅是一个被动的过程。技术、设备、运营方针等方面日新月异的应用,都导致在机柜级别的电能和环境管理需求急剧增加。人们已不再满足于PDU的原本角色和作用,而对之提出了新的期待:更智能,具备监测、分析和实时响应威胁和机会的功能。

例如,领先的智能电源管理解决方案供应商力登(Raritan)旗下智能PDU产品,就能通过机柜级和设备端的用电监控管理,除了能够追踪电流、电压、电功率、功率因素以及能源的使用率(提供1%级别的计费级测量精度), 其远程切换功能让运维人员无需亲临现场,就能通过力登智能PDU对设备进行电源开、关、重启等操作,及时修复故障,保障系统持续运行,还能将PDU空闲插座设为无电状态,消除因人为失误或设备同时加电等引起的断电跳闸。

此外,力登的智能PDU大的特点在于,运维人员能够通过Power IQ电能管理软件对设备所处微环境的温度、湿度、气压等状况进行监控,更重要的是这些计量后的数据会被收集整理,从而为管理者提供决策参考。如果设备用电出现异常或者设备微环境出现变化都会及时报警通知运维人员,从而大程度地保证设备始终处于健康状况,避免计划外宕机。

由此可见,智能化的电源管理解决方案不仅能够保障数据中心用电安全、避免掉电,还能帮助数据中心运维人员提高管理效率、简化管理流程、提升数据中心资源利用率以及业务综合管理。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56