2018年的高温天气来得比往年更早一些。骄阳似火的6月,北京亦庄某数据中心机房柴油机发生一起起火事故,所幸并未出现去年多家金融机构设备大规模宕机。本次起火事件,缘起亦庄地区发布的30天限电令,当地不少数据中心开始使用柴油发电机进行带载。

多家金融机构和73家村镇银行的所有设备宕机,服务全部中断长达7小时以上——去年亦庄某数据中心的断电事故,仍令人心有余悸。调查发现,当时两台老旧的UPS负载过高,切到旁路,很快三台柴油发电机接连出现“失磁”报警,停止运行,导致机房全部设备断电,系统宕机……

实际上,诸如此类的数据中心突发事故时有发生,供电故障是国内数据中心比较常见的灾难产生原因。2016年因电力系统故障导致的达美航空数据中心停运事件造成了2000余架次航班停飞,带来1.5亿美元的经济损失……这样的报道屡见不鲜,如何能够避免此类事故的重演?

1

选址的门道很深

众所周知,数据中心大特点正是高耗能,整个数据中心投资大的部分也正是供电系统。供电系统是整个通信系统的动力来源,它相当于一个人的心脏和血管,负责把能量输送到系统的每一台设备,是其他所有系统能够正常工作的前提和基础,因此,稳定的供电系统成为了数据中心运营商的重要考量因素。

据悉,北京市发改委于2014年出台了产业禁止目录,其中将PUE大于1.5的数据中心列为禁止项目,2015年8月又进一步限制在城六区新建数据中心。由此可见,数据中心是的建设选址不仅要保证建筑物的质量,还要保证配套设施的完备性和长期运转的高可靠性,并要考虑到在用电高峰季节临时性限电政策对数据中心带来的影响。

以Facebook公司为例,该公司计划在美国亨茨维尔北部建造一座全新的数据中心,看中的正是当地可提供可靠的可再生能源、强大的本地基础设施。在国内,中国电信开普勒(佛山)数据中心则直接将园区选在佛山福能大数据产业园之中,依托的是其股东佛山电建集团安全可靠的电力资源,不仅可享受优惠政策,还可享受低廉电价。据悉,开普勒数据中心实现了真正的双路供电,电力来自三个不同变电站,分别引入四路电缆,实现了高压有联络,同时配有柴油发电机与UPS系统,供电保障率99.999%。未来福能发电厂为开普勒高压室提供10KV的电力的备用通道。

1

冷却系统上大做文章

据悉,电力成本占数据中心整个支出成本的50%-70%,其中一半是机器设备散热需要的空调费。行业数据显示,数据中心设备运行时的最佳温度为22℃,上下浮动不能超过2℃。在基准温度情况下,温度每升高10℃计算机的可靠性就下降25%。

然而,大多数的数据中心冷却和电源的容量如今都已过度配置,通常所部署冷却容量比必要的冷却容量要高出三倍。根据调研机构Gartner公司的调查,数据中心40%的冷却成本被浪费。如何更科学合理地节能降耗,成为摆在数据中心运营商面前的难题。国内外不乏一些独辟蹊径的路数,诸如微软将数据中心沉入海底,腾讯将数据中心建在山洞……

难道只有这些非常规手段吗?实则不然,有一些切实可行的节能降耗方案也取得了显著的收效,诸如机房采用封闭冷通道以及精确下送风方式,地板结构下沉,机柜热通道背靠背,优化气流组织,避免冷热气流混合,提高制冷效率;采用双环路管道,提高空调系统安全和可靠性;利用天然发电机余热加热水,给溴化锂制冷机提供热源,回收利用了余热,达到了节能减排目的——这些常规却有所突破创新的举措正是开普勒数据中心进行的积极探索,并借力模块化机房设计等一系列手段,实现PUE值可达1.3-1.4的指标。

1

运维管理能够防微杜渐

工欲善其事必先利其器——可靠的电力保障与高效节能的冷却系统正是数据中心提供稳定服务的基础,然而光有硬件和技术支撑还远远不够。对于数据中心发生的故障,行业专家认为故障多发的原因还是在运维管理上,正所谓“三分技术,七分管理”,数据中心的故障大多源自于人祸。

运维工作对数据中心来说至关重要,关乎整个数据中心业务的正常运行。一旦突发故障,具备一定的专业技能和应急能力的运维团队可及时对故障原因作出准确判断并迅速找出解决方法,避免宕机风险,从而达到防微杜渐的效果。

在实践中,运营商需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题,通过预警机制及相应的流程做到防患于未然,并为应急措施及节能措施提供可靠的指导依据。数据中心的日常业务运维主要包括日常检查、应用变更、软硬件升级以及应对突发故障四大方面内容。其中,日常检查作为业务运维的基础性工作,其意义非同小可。

如今,不少数据中心运营商都采用了全自动化二维码巡检系统,可自定义巡检路线,自动生成巡检任务,手机APP自动接收巡检任务,并一键生成巡检报告,自动评估巡检健康度,为客户提供高效的智能化运维服务——据悉,这种系统是由开普勒数据中心首创,并得到了业界的普遍认可。

除了日常运维,数据中心的应急预案也很重要,建设灾备系统正是其重要的环节。其实,我国早在2007年时就颁布了首个关于灾备的国家标准《信息系统灾难恢复规范》。现在的数据中心承载的业务越来越重要,引入有效的灾备技术,在性能恶化时提出预警,使企业能提前感知并采取相应的修补动作,避免宕机事件的发生,能减少数据中心发生故障时带来的损失。

然而,不要以为有了灾备系统,就可以高枕无忧了,如果后期不对其进行管理,从不更新灾备预案,这样的灾备系统在面临突发状况时也只能是形同虚设了。

1

竞争压力激增,转型机遇来袭

实际上,除了供电系统与运维管理系统之外,影响数据中心正常运维的因素还有许多,诸如充足稳定的网络资源、安全的消防保障等。然而,不少数据中心服务提供商忙于能够迅速带来经济效益的一线业务投入,却忽略了包括应用在内的软件的运维问题。

伴随着以互联网应用服务为载体的数据中心建设需求日益激增,包括运营商、互联网巨头在内的众多企业纷纷加入到投建数据中心的热潮之中,由于投建数据中心的技术门槛并不高,一时间泥沙俱下。因此,选择靠谱的数据中心服务供应商也不是件易事。

如今,数据中心各服务商已在技术、服务、价格、宣传等领域全面展开竞争,最终比拼的还是其技术实力。凭借佛山“互联网+”创新创业产业园的基因,借力佛山市福能发电厂,融合直连中国华南地区国际出口电信骨干网资源优势,背靠珠三角经济带,总投资10亿元、规划建设5675个机架的中国电信开普勒(佛山)大数据中心将于7月底投运一期第一批机架774个。

面临数据中心业务模式日益趋于定制化、高端化的局面,开普勒数据中心的业务种类由当初的网站和服务器托管、应用托管等基础业务,进行了更大范围的延伸拓展,其增值服务覆盖了网络/服务器实时监控及告警、现场软/硬件支持、入侵检测、流量清洗、链路测试、网络故障排除、巡检监控等多项内容,可以满足客户多样化及垂直专业化服务的需求。届时,该数据中心可辐射至广东、广西、福建等华南地区,满足行业用户异地备份的需求,并可满足华南地区大中企业客户超万家中小小型企业的发展需求。

未来,智能化运维管理将在数据中心行业得到越来越多的重视,将科学、系统的理念以及专业的管理和服务贯彻数据中心整个生命周期,将会为客户创造大化的价值,也将为整个数据中心产业带来新气象。

关联阅读:

超大规模数据中心硬件成本降下来,能耗怎么破?

是时候考虑那些没名气的数据中心硬件了

【中国IDC圈原创 未经授权禁止转载】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-06-24 09:49:44
运维管理 疫情当下,如何减少人员轻松实现网络基础设施管理?
作为一名运维从业者,必须要讲讲疫情为运维工作带来了哪些变化! <详情>
2022-04-18 13:22:10
大数据资讯 高效安全更及时,新华三远程运维保障企业发展“生命线”
当下的IT运维市场,远程运维服务悄然兴起,催生着企业IT运维服务模式的新变革。 <详情>
2022-01-17 14:31:58
运维管理 引领运维高效革新之路,新华三荣获ITS 2021年度IT智能运维领军企业奖
作为新华三智能运维领域中的拳头产品,U-Center统一运维平台基于开放容器底座,实现从系统底层架构到上层应用的全面智能化改造,具备AI赋能(AIOps)、全域融合(Aggregation) <详情>
2021-12-30 13:55:35
国际资讯 西澳热浪 引发当地数据中心中断
由于连续四天温度高于40°C,数千人遭遇断电。而这种影响不仅仅限于居民生活,澳大利亚互联网服务供应商iiNet就表示,自圣诞开始便无法支持用户访问其网站和相关电子邮件服 <详情>
2021-11-10 14:16:06