近一个月来,阿里云、AWS、腾讯云等都因为数据中心运维问题造成了业务上的故障。如何解决这些由人力或自然资源等因素导致的数据中心故障,是运维人员一直在讨论的问题。
另一方面,降低数据中心能耗也是无数数据中心从业者致力于大道的目标。相关资料显示,2014年,美国的数据中心耗电量达700亿千瓦,约占电力消费总量的1.8%,如果不采取措施降低能耗,未来数据中心将会消耗大量的社会电力。
可以说,降低运维故障率与数据中心能耗都是摆在从业者面前的两大硬需求,要想在未来面前建造更得力的数据中心,我们应该如何满足这两大需求呢?
自动化运维遇挑战智能运维才是未来?
中科仙络董事长程小丹在出席2018数据中心设施论坛-上海站表示。他认为,当今运维的重视度已经非常高;在数据中心整个设计建造过程中应该强化机电顾问的作用,才能保证我们在运维的时候,有相关运维的文档;云和托管成为一个趋势,大家越来越多的会用第三方的数据中心和云服务,在数据中心迁移过程中需要做好自己的功课,才能确保系统能够稳定。程小丹建议,在数据中心迁移的时候,第一,要评估目标IDC的技术文档和资质文件;第二,目标IDC要有可信的第三方测试报告;第三,目标IDC运维体系及运维团队能力要过硬;第四,一定要制定应急预案,把机房放到第三方,第三方本身肯定有应急预案,但自己还得有另外的应急预案,以备不时之需。
北京中科仙络咨询服务有限公司董事长
目前,数据中心无论是软件还是硬件上,都不甚完美,但是即便不完美也要保障业务的可靠、高速、高效、安全。南开大学AIOps算法专家张圣林认为,自动化运维虽然可以对大体量的服务器进行监控分析,但是依然面临三大挑战。
首先,目前广域网变得越来越复杂,一旦出现故障后,很难对故障点进行精确的人工排查;第二,近几年来,数据中心架构不断演进,但每一次改进都会对运维人员进行挑战,因为原有旧经验不再符合需求,他们需要不断进行新的分析;第三,软件的架构不停发展和演进,现在DEVOPS的兴起,就是因为用人工的方法分析变得越来越困难。
“自动化运维面临的挑战,正是智能运维缠上的先决条件。”近期,张圣林在出席2018数据中心设施论坛-上海站时表示。他认为,在智能运维时代下,运维团队只需要判断智能运维大脑的决策是否准确即可,这减轻了运维人员的人力消耗。目前,张圣林团队已经百度运维团队合作出了交换机故障预测的框架。
南开大学AIOps算法专家
从硬件和软件开始控制数据中心能耗
在不同的气候条件下,数据中心对制冷程度的要求各异,所以不同地区对数据中心建设条件要求不一。英国宽德主席David Dryden表示,有效控制能耗的策略是从硬件和软件开始,数据中心在简化电力系统架构和驱动效率方面具有可提升的空间。
以新加坡为例,新加坡地处热带,运营商不得不把数据中心致于恶劣的条件下。David Dryden在2018数据中心设施论坛-上海站上表示,他的团队最终在数据中心的大中两侧设置IAC和电源线,或这些放置于建筑物的两侧来提升数据中心的性能表现,这比仅仅在屋顶上安装冷却塔更有效。
英国Cundall(宽德)主席
为了推动绿色数据中心建设,美国绿色建筑委员会MTD大中华区主管徐辰波也来到2018数据中心设施论坛-上海站现场,徐辰波表示,作为LEED作为全球范围内认可度高、使用最为广泛的绿色建筑认证体系,将进一步的细化标准体系,更适应现时代发展。
美国绿色建筑委员会
运维无小事,一个微小的故障极有可能引起数据中心业务损失,智能运维或许是2018下半年值得关注的方向。与此同时,我们也要重视数据中心各环节对数据中心能耗降低产生的影响。
相关阅读: