运维管理是需要人去做的,如何才能管理好一个数据中心,才能充分发挥数据中心的作用,使之能更好地为云计算提供强大的支持能力。运维人员应具备什么样的素质才能做到这一点呢?一般说需具备以下三个方面的条件。

(1)深厚的理论基础

运维管理知识来源于学习和不断地研究,比如看书和培训。有了这样的理论基础也就减少了对问题分析的盲目性。否则碰到问题就不知所措,无从下手。

  

如图1是某数据中心供配电结构原理图。图中,两台120kVAUPS并联后送到两个配电柜,每个配电柜各有35个16A的微型断路器。一天夜里1#配电柜突然有八个输出断路器跳闸。后来检查结果是一个IT电源输入短路,两个IT电源输入保险丝烧断。这就提出了如下的问题:

①为什么三个电源故障导致八个断路器跳闸?

②为什么一个电源短路导致八个断路器跳闸?

③为什么跳闸都发生在1#配电柜,而2#配电柜没有任何反应?

以上的几个问题如何解释?这里面包含了理论、经验和对电路与器件的了解。

又如,某化工单位在定期为240kVAUPS电池放电时,由于负载太小,只好将电池组取下来用假负载放电。放电后又将电池组接回原处,合闸后机器突然爆炸起火。专家检查后,发现电池的极性连接正确,但所有逆变器功率器件和整流器后面的所有电解电容器统统烧毁!于是专家作出了是“机器质量问题”的结论。结果代理商赔了一台新机器。是机器本身的质量问题吗?为什么电池放电前机器一直运行正常,而放电后就起火爆炸呢?就算是质量问题也不会在同一时间所有这些器件都达到报废的程度!这又如何解释?如此等等,如果不站在理论的高度上去分析,单凭经验和直观视觉就一头雾水,就不能做出公允的判断。“机器质量问题”的结论肯定是错的,错在哪里?错在不懂UPS的结构原理。

又如,某机关数据中心购置了4台200kVAUPS做 2(1+1)连接,如图2所示。机器安装后在考机期间,为了检测在市电转换时的输出不间断功能,就在转换开关ZB1由市电1向市电2切换瞬间,分路断路器ZB2和ZB3跳闸,两路并联UPS1和UPS2各坏了1台,检查发现都是可控硅整流器烧毁和控制电路板受损。按道理说由市电1切到市电2是一

  

个很普通的操作,即是UPS最普通的功能之一,为什么会出现如此情况?而且修好后不到一年又一次市电停电时,UPS转为电池供电模式,待市电恢复后UPS的输入电压就不能投入了,一直是逆变器供电。为什么?为了工作再不受影响,用户只好将其淘汰!为什么会这样?调查得知,该机器是打着进口品牌的国产品,而且该生产者是一个国内不知名的小厂。在用户购置该UPS的时候,国内知名的几家UPS制造商也刚刚达到生产该容量的水平,且大都是仿制。不用说这一家也是仿制。问题是为什么的仿制就会出现如此多的问题呢?技术分析留待后面,这里只分析产品和知名厂家的不同,其不同就是仿制技术水平的差别(这可从UPS故障后两个月才修复看出技术水平不佳)、生产平台的差别(机内布线和控制电路板外观粗燥)、元器件等级的差别(更换故障部件不是一次成功)、检测手段的差别(出厂产品做市电切换是常规手段,这次故障说明产品出厂时连最常规的实验都没做)等。由于用户缺乏这方面的知识,没有向厂家提出采取相应的应对措施,才会很快又出现第二次故障。

(2)丰富的实践经验

理论来自学习,但必须和实践经验相结合。一般说经验多数来自教训,所谓失败是成功之母就是这个道理。这里所说的经验是经过反复实践证明的,是经得住考验的。往往好多所谓经验并不是真正的经验而是经历。比如不少人认为零地电压干扰负载,并能举出一些实际例子加以证明。比如举例者说:一次,机器系统工作异常,经查找发现零地电压大于1V,于是就将电源的零线和地线短接,结果异常消除了。当问及是否又将零地短接线断开时,其回答是:“既然工作正常了还断开做什么?”首先这个经验是不完全,只做了一半。一个完整的经验应该是:零线和地线短接后异常消除,接着再将零地短接线断开,如果此时系统工作又出现异常,就说明是零地电压干扰系统;如果将零地短接线断开后系统仍正常工作,就不能说明零地电压干扰系统。这里的误区是当事者听信了传说‘零地电压干扰负载’的影响,在他的心目中已有这个印象,这次的经历正好迎合了这种心理,所以就错误地认为这就是经验。

大都有这样的经历:显像管老式电视机,看的时间长了就会出现影像突然消失,一般的做法是拍打几下电视机外壳,大都是影像出现了。有了这一次的经验,以后只要影像没有了就去拍打外壳。可说是有了多次‘经验’。难道就可以说这个电视机所以经常出现黑屏就是因为‘欠打’吗?很明显这是误解。总有一天将电视机拍打的彻底黑屏为止,或烧掉。

(3)很强的责任心

这一点尤为重要,技术好并不代表责任心强。比如某金融数据中心一位技术很好的运维工程师,开始的确是严格按照机房守则每两小时抄一次UPS显示屏上的数据,几个月下来显示屏上的数据总也不变,他都背熟了。从此机房就再也不去了,按照记忆每两小时填一次表。突然一天半夜机房内市电故障停电,UPS转为电池模式继续为机房IT系统供电,这位工程师早晨上班后仍按习惯没有去机房巡视,就直接将记忆中的数据填入表中,几小时后由于电池的储能枯竭致使UPS输出停电,机房设备全部停止运行。可惜的是后备发电机控制屏的开机旋钮指在“手动”位置上,本来可以避免的故障就这样出现了,给单位造成了严重损失。

再者,责任心强如果制度定得不合适也会导致故障。如在前面“深厚的理论基础”中提到的例子,这位工程师责任心是很强,做到了定时为电池放电保养,但由于制度定的不细,使得只有一个人的情况下单独操作,结果由于误操作而导致故障。在对待高压(不论是直流还是交流)情况下应该是两人在场,一个人操作一个人‘监督’。

 结束语

数据中心作为信息与信息系统的物理载体,目前主要用于与IT相关的主机、网络、存储等设备和资源的存放、管理。只有运维管理好一个数据中心,才能发挥数据中心的作用,使之能更好地为云计算提供强大的支持能力。通过有效实施云计算数据中心运维管理,降低人员工作量的同时提高运维人员工作效率,保障业务人员的工作效率,提高业务系统运行状况,进而提高企业整体管理效益,同时提高客户满意度,实现云计算数据中心的价值大化。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2025-04-25 11:11:02
国内资讯 万国数据全国首单“数据中心持有型不动产ABS”在上交所 成功挂牌上市
本次发行是贯彻落实中央‘金融五篇大文章’要求的生动实践,通过‘持有型不动产ABS+可持续挂钩’这一创新,实现了资金用于金融数据中心核心资产收购和运营。 <详情>
2025-04-01 18:19:39
国内资讯 普洛斯中国首支数据中心基金完成募集,投资规模约26亿人民币
普洛斯推出首支数据中心收益基金,提供稳定收益和长期增长并重的投资产品,满足投资人需求。 <详情>
2025-03-26 16:35:02
国内资讯 中国移动成渝(重庆)江南数据中心正式投产
3月20日,中国移动成渝(重庆)江南数据中心(以下简称“江南数据中心”)投产暨战略合作协议签约仪式在南岸区、重庆经开区举行。 <详情>
AI浪潮下 SUSE如何以开源助力企业级AI创新
2025-07-07 13:59:47
AI驱动数据中心变革 施耐德电气发布EcoStruxure™ Energy Operation电力综合运营系统
2025-07-04 15:15:58
液冷、供配电、WUE、IT能效…工信部新规落地,数据中心PUE之外的考题登场
2025-07-04 10:19:42
阿里云西部云计算中心及数据服务基地项目一期主体建设完工,即将投产
2025-07-04 10:17:27
南方万国数据中心REIT宣布定价3元/份,获超百倍认购,7月14日正式发售!
2025-07-03 16:59:52
绿电直连 vs 绿证 数据中心应该怎么选?
2025-07-03 16:36:38
迎接关键转型期:中国第三方算力中心服务商应对之道
2025-07-03 16:31:42
观察|几万块GPU、毫秒级变化……AI算力需求对智算中心供配电冲击有多大?
2025-07-03 16:27:45
马来西亚电费新政:取消阶梯电价,数据中心面临挑战与机遇
2025-07-03 16:25:43
总投资约45亿元 东方国信内蒙古智算中心项目1号楼投产
2025-07-03 16:23:12
2025中国智算产业生态发展大会中交智数谷(宁夏·中卫)专场成功举办
2025-07-03 16:21:11
总投资1.3亿 仙桃小寺垸智算中心项目正式开工
2025-07-03 16:19:13
科智咨询《2025中国智算产业生态图谱》发布
2025-07-03 16:17:42
同比增长超100% 《中国智算中心供配电系统应用市场研究报告(2025)》正式发布
2025-07-03 16:15:37
“算力产业创新实践案例”揭晓 彰显算力多样化创新赋能
2025-07-03 16:06:57