中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日智能监控与管理分论坛上,中国电信股份有限公司北京分公司动环工程师翟骏发表了以《配电系统故障管理2.0》为主题的精彩演讲。

翟骏

我是中国电信北京公司翟骏,我们课题是《配电系统故障管理2.0》,我们2019年时新做一套网管,将原来三套老网管进行集约化收敛,新网管建立以后一直想做配电拓扑系统管理模块,历时大概一年时间实现了。借这次会议向大家分享配电拓扑管理模块中的思路、建设过程以及难点。

1、项目背景

配电拓扑图使用对象是千千万万一线运维人员,为什么我们做配电拓扑图有三点原因:第一点,针对不同的局,人力配置是不同的,小型综合通信局夜间职守只有1人情况,如果夜间出现配电告警很难实现“一人盯监控、一人去现场处理”的方式,人力相对紧缺。第二点,做运维知道了解,高压或低压出现告警以后往往出现关联很多告警,比如UPS上游输入中断、直流系统上游输入中断、空调配电柜中断,上游高压低压侧出现告警以后,维护人员面临的告警是多层次、多列表化的告警界面。作为运维人员需要在若干个告警中分析出根告警,从而再去机房现场进行处理。小型局站可以比较容易地找到哪个配电室、哪个闸断了,但是针对数据中心大体量机房,上游某配电设备中断了,全网海量告警出现后,极不利于缩短告警定位时长和告警处理时长。第三点,现场维护中主要精力70%是针对告警运维,数据中心主要分为三大块——配电、暖通、安消防,这三者取电都是从配电中取的,如果核心侧配电系统出现问题,数据中心整体的运维都会出现影响,所以配电告警占比很重。

基于此,我们希望将传统列表式配电告警管理模式转换成拓扑图形式,这是两年前给我们部门领导汇报的图样,红色代表运行正常供电状态,绿色代表分断。比如上游401、402断了,下游设备没有中断,这种情况作为一线人员看到告警肯定出现在高低压配电室,去配电室处理就可以了。一线维护人员可以先在网管上拍张照片,拿照片直接往机房赶。所以这个项目主要涉及两方面,一是画图,二是涉及系统开发。

2、设备测点数据制定

图上要画两个东西,一是设备,二是测点。配电类设备要画哪些东西?从上到下:高压柜、变压器、低压柜、油机、UPS、直流、蓄电池、交流列头柜、直流列头柜、空调配电柜10类设备。另外,高压柜、高压负荷输出柜211/221与下级低压进线柜401/402一一对应,关联一个就可以了,高压负荷输出柜不一定可以拿到测点,这种情况下我们只取低压柜401测点即可。另外,针对电池需要不需要往图上画,我们认为电池往图上画有些冗余,因为电池是配套UPS系统进行工作,电池与UPS进行打包,一套UPS画到图上,上面是交流进线,下面是交流负荷输出,上游交流进线失电了,下游UPS和直流设备正常工作,说明电池正常工作,实现了拓扑图的功能,故我们只关注UPS上口是否断了,不影响拓扑图的运用。另外,我们现场调研中发现部分直流列头柜没有做监控,我们增补了一批电压传感器,主要是为了定位告警,PM表包含很多信息,很多测点并不是我们需要的,故不选用PM表。

测点如何选?针对上几类设备主要择选的是VBC、V23线电压,底层网管遥测量根据阈值进行比对。低压母连柜、高压母连柜很难界定,因为现场调研发现不知道母联柜测点挂在上口还是下口母排,所以我们取它的相电流值进行比对,只有当相电流有值时才认为母联柜工作,拓扑图上才可以真实变色。

3、图怎么画分两类

不同于日常常见供电局打包做的配电室内设备拓扑的那么专业,我们从上到下考虑分为高压、低压、变压器、UPS、直流等设备。油机及重要的UPS和直流往中间放,两侧画空调配电柜。例如拓扑图上部高压配电值某个线变色的了,人员去配电室现场处理就可以了。中部UPS直流出现问题,我们进到动力机房处理就可以了。

但是大数据中心如何画呢?我们调研了一下,北京公司既有小型的IDC,也有大型数据中心,包括亦庄瀛海、永丰数据中心和京津冀数据中心。按照拓扑图界面承载能力来看,两套高压系统最多带8台变压器,这种情况我们只画UPS和直流就可以了,足以我们定位具体设备的告警原因了。

4、功能模块的设计与应用

疫情期间组织四波人:第一波,也就是我们项目发起方,需求是知道拓扑图实现什么功能以及后续怎么发展,第二波,老的设备网管厂商,了解接口中包含哪些字段和信息,以及想要的测点在网管后台对应的唯一编码;第三波,现场维护人员,了解测点和设备在老网管哪个位置;第四波,新网管厂商,按照甲方要求把这个画出来,按照甲方选择的测点设备把这个关联出来。这四波人开了二十几次会议,分批对全网16个核心局、综合通信局和数据中心进行了一次绘制、历时两个半月时间。

再说下告警关联方面。我们的实现方式是1个大网管将三个小网管的数收上来,老网管并不支持很短的测点轮询周期,所有我们完全利用接口中推送的告警,因为告警是实时的,跟正常处理告警一样,拓扑图里颜色变化说明产生告警。

5、建议与总结

配电拓扑功能模块需要建设单位深度参与,从酝酿到实现大概2年时间,我们也参与了很多行业发表会,成品很少见。最终我们完成全网16个局站总计1082个设备关联以及1759个测点关联。拓扑图的重大意义是将一条条文字告警转化成组态图方式,关键设备、关键测点的择选,让大家各司其职,没有给系统增加接口压力,也让新老网管厂商、一线维护完全了解拓扑图意义,提高沟通效率;配电拓扑图升级实现集团一次集约化管理,相信随着友商和各位厂商不断支持、新技术不断涌现,动环系统有更多血液引入,我们会更新颖、更高效、更实用角度辅助运维工作,把动环监控系统变成智慧化运营系统,指导现场运维、综合管理、能耗监控等等。

感谢大家的聆听!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-01-08 17:06:00
UPS电力 互联、简化、学习——“社交型“配电系统“养成”的关键三步
”互通的数据语言,适合的软件工具,强大的学习扩展能力“是让社交得以实现,并简单高效、有效优质的重要三步。 <详情>
2020-09-17 15:28:03
国内资讯 新基建新征程!2020开放数据中心峰会发布49项重要成果!
9月15-16日,由开放数据中心委员会(ODCC)主办,腾讯、阿里巴巴、百度、中国电信、中国移动、中国信息通信研究院和英特尔承办的“ODCC 2020开放数据中心峰会”在北京国际 <详情>
2020-09-16 18:45:59
国内资讯 中国移动信息技术中心项目总监王娟:全闪存阵列技术规范探讨
我们在制定全闪存阵列的性能指标时,会综合考虑业务的需求、全闪存阵列设备的硬件配置、厂商产品实际能力等多个因素。 <详情>
2020-09-16 17:18:58
国内资讯 腾讯运营经理王鹏:互联网数据中心通用验证测试技术规范
我们目前编写的规范实现了对主要基础设施的全覆盖,包括覆盖了21类电气设备,暖通包括30类设备,智能化方面涵盖15类设备,场景包含23类数据中心常见的故障场景。 <详情>