数据中心采用一定的战略,以确保能够获得清洁、持续的电力资源对于其IT系统而言是必不可少的。
曾几何时, IT仅仅只是另一项重要的商业资源。但到了今天,IT已然成为了许多公司的业务。没有了IT,大多数企业组织及哦股将无法为他们的客户服务;与合作伙伴展开合作,开发新的产品或执行其他基本的业务功能。
其结果是,数据中心的可用性已经成为确保企业组织机构的市场竞争力和盈利能力的一个重要的先决条件。然而,尽管企业组织机构已经尽了自己大的努力来确保数据中心系统的可用性,但他们仍然非常容易受到各种各样的威胁。而其中最主要的是便是来自电力系统的影响问题。数据中心的健康运营需要依靠持续的清洁电力供应。然而,从电源系统设计的哪怕一丝一毫的缺陷到整个电网发生的故障,都可能导致即使是最现代和先进的数据中心陷入瘫痪。
庆幸的是,企业组织可以通过采取对他们的业务流程和电力系统管理经过验证的改变办法来显著的减轻其电源相关的停机时间。在本文中,我们将与广大读者朋友们共同探讨关于如何建立和维护一个高度可用的数据中心电力基础设施的10项尚未被业界充分利用的最佳实践解决方案。
业务流程管理实践方案
1、打破企业组织机构间的壁垒
在大多数公司,通常都是由两个独立的部门负责数据中心的管理:IT部门和基础设施部门。IT部门负责监控数据中心的计算机基础设施与应用程序,该部门通常是向所在企业的首席信息官报告。而基础设施部门则负责处理数据中心的能源和冷却方面的要求,该部门通常是向所在企业的首席运营官或负责公司不动产方面的副总裁报告。长期以来,这种企业组织结构的划分已经成为大型企业的规范常态,但其往往会导致负责维持工作负载的人员与负责提供电力资源的人员之间的沟通不畅。
从历史上看,企业IT和基础设施部门之间的协商不充分并为对数据中心的可用性构成太大的危险。直到最近,即使是在大型的数据中心,其工作负载和功耗要求也是较为适中的,其IT管理人员们可以安全地重新安置服务器和工作负载,而不会对电力或冷却系统带来太大的压力。
然而,今天的大规模的服务器基础架构正在变得越来越大、更为耗电、同时也就会散发更多的热量。此外,刀片式服务器和虚拟化的广泛采用——在简化管理,并提高服务器利用率的同时,也大大增加了计算密度和由此产生的热量——也进一步的加速了上述这些趋势。
而在今天,在没有咨询基础设施工程师的前提下,服务器的蔓延,数据中心的散热冷却,工作负载或硬件的迁移都可能导致电力设施的超负荷或HVAC系统的不堪重负,这可能反过来进一步降低关键系统的运行效率。
然而,不幸的是,虽然最近几年以来数据中心行业本身已经获得了相当显著的发展,但数据中心内部的企业组织结构却并没有。其内部的IT和基础设施部门仍然是两个相关独立的部门,且相互之间在重要的业务事项方面往往缺乏充分有效的沟通。
解决方案:为了尽可能的减少与电力相关的停机时间的发生,企业组织应该就IT管理人员和基础设施管理人员在对数据中心的实现修改时应该如何以及何时进行相互协商的程序建立明确且标准的文档记录。
为了进一步推动IT和基础设施部门之间的有效沟通,企业组织也应该考虑改变自己的组织结构图,使得IT和基础设施两个部门都向相同的CXO级的高管报告。这可以通过在两个部门之间设置一套通用的业务期望目标和共同的报告结构,使得IT和设施管理人员之间的互动变得更容易。
图1:在经过优化的企业组织架构方案中,IT部门、基础设施部门和企业高管之间公开分享信息,并做出协同做出决策。
2、着眼于长期价值,而不是短期成本
在许多公司中,当涉及到数据中心的建设或改造翻新时,短期的投入成本和企业长远的价值二者之间的优先级别总是冲突的。企业的高级管理人员们通常都要督促负责数据中心建设的人员务必要尽可能的压低成本,缩短完工时间。其结果是,在数据中心的建设项目中所涉及到的供应链参与者、工程师、承包商和项目经理们往往都是基于谁的报价最低、并承诺最快的设备交付,而做出设备的选择决定。
但是,真正负责运营数据中心的工作人员们则有着一套不同的优先级,他们往往更为看重公司的长期利益。最低报价的硬件确实能够在数据中心的初期建设方面节省成本。但如果这一价格水平的设备其实并不符合原数据中心建筑设计定义的操作规范的话,随着时间的推移,其最终将以降低运营效率和正常运行时间的形式来让企业组织付出昂贵的代价。
解决方案:当对一处数据中心的建设或改造翻新项目进行审查和决策时,企业的关键执行人员务必应该仔细审查采购决策,确保一线的项目管理人员和承包商并没有以牺牲企业的长期利益为代价,来换取短期的成本压缩。他们也应该清楚明确地传达严格遵守数据中心原始设计操作规范的重要性,即使这意味着在施工过程中的花费会更多一点。
企业组织机构也需要为其数据中心设施建设的管理人员们设定目标,而不要过于把重点放在短期成本的降低压缩方面。为其采取了一套符合企业长远利益的、进而减少了对于数据中心设备寿命的可用性带来不利影响的采购方法而奖励其数据中心建设团队。
3、采用标准化设施的工作流程
现如今的IT部门正在越来越多地利用标准化的最佳实践框架,如信息技术基础设施库(ITIL?,参见www.itil-officialsite.com)来帮助他们提高他们的工作流程系统化。ITIL是由英国政府在上世纪80年代提出的,其定义了特定的、有效的、可重复的方法来处理事件管理、服务台操作和其他常见的IT任务。那些遵循ITIL指南的企业组织机构大都充分享受到了更好的IT资产控制,进而使得他们能够更容易地诊断和解决IT故障。
不幸的是,一些企业的基础设施部门采用了严格、统一的维护流程,如那些由ITIL定义的流程,而不是依靠特设的程序和基础设施管理人员们所积累的专业知识。因此导致了数据中心电源和冷却系统的维护标准往往较低;或与IT系统不太一致,进而导致了停机时间的增加。
解决方案:虽然基础设施流程框架作为ITIL尚有待开发,但基础设施部门可以而且应该采取相应的措施,以制定他们自己的标准化、文档化的流程。按照一致的,可重复的方式进行必要的活动,可以显着降低功率和冷却故障的可能性,同时提高基础设施技术人员的工作效率。
4、维护一个基础设施变更管理数据库
航空工程师和专业的维护人员们早就了解到了强有力的变更管理流程的重要性。在一架既定的飞机上对于其所进行的所有维护程序都保持一份全面和准确的文档记录,对于确保飞机的安全飞行是至关重要的。此外,一旦发生事故,维修记录可以为在第一时间找出造成潜在的灾难性的系统故障的根本原因提供重要的线索。基于类似的原因,ITIL特别侧重于强调在一个全面变更管理数据库(CMDB)对于IT资源所有变化的仔细跟踪。在CMDB中的信息可以帮助 IT员工们更有效的解决服务中断,而且在紧急情况下,对于确保对于重要数据的及时访问是至关重要的时候特别有价值。
然而,不幸的是,仅仅只有很少一部分的企业基础设施部门维护了一套CMDB.其结果是,关于其数据中心的不间断电源系统(UPS)或关于当前哪些服务器或其它相关负载正在被处理等等诸如此类的唯一记录都只存在于管理人员的头脑里。而一旦这位管理人员离职或退休,这些宝贵的纪录便随之离开了,这无疑会使得数据中心被暴露在不必要的停机风险之下,同时电源/冷却设备受干扰后也将需要更长的恢复时间。
解决方案:企业数据中心的基础设施部门应建立并严格维护他们自己的CMDB.ITIL的指导方针为这一举措提供了一个有用的起点,企业组织也可以利用各种专门的CMDB软件应用程序。
5、评估电力系统组件时,要考虑易于维修性与可靠性等
人们经常会混淆了“可用性”和“可靠性”这两大概念。然而,事实上,这两个术语有相关的,但彼此又有着不同的含义。
可靠性——其是通过平均系统故障间隔时间(mean time between system failures,MTBF)来测量的,而其本身也是可用性的两大关键组成部分之一。另一大关键组成部分则是当发生故障失败时的平均修复间隔时间(Mean Time To Repair,MTTR)。可用性的计算公式如下:
可用性= MTBF /(MTBF + MTTR)
一台服务器、交换机或供电设备可能是高度可靠的,因为其很少出现运行中断停机;但却并不一定是高度可用的,因为其有着很高的平均修复间隔时间。然而,当评估系统的可用性时,IT部门往往完全忽视了维修时间。
为了搞清楚对于数据中心的这方面的可用性的疏忽或将导致的使得数据中心陷入的具体危险。我们可以假设一种情况:一家公司试图决定在其新的公司总部使用普通荧光灯泡与更复杂的LED照明系统之间做出选择。该LED系统是高度可靠的,因为它很少遇到机械问题。而一旦发生问题时,如果备用的LED灯泡没有存放在本地库存或无法从本地供应商处及时获得,那么,更换这些灯泡将会是一个相当耗时的过程。而另一方面,如果采用普通荧光灯的话,其MTBF大约是6000小时,这使得其可靠性显著降低。但是,更换普通荧光灯的过程通常是一个相当快速且成本相对便宜的过程,因为普通荧光灯是一款标准化的产品。故而当兼顾考虑到了可靠性和平均修复时间之后,该公司决定采用普通荧光灯泡实际上可能为其提供较之LED系统更好的可用性。
同样的逻辑也适用于电力系统的基础设施组件。设计用于长时间无间断平稳运行的系统,如果对其进行修复是一个耗时的操作过程的话,那么其可能不会提供高可用性。
解决方案:当评估电力系统的组件时,企业组织应该寻找那些既有高度可靠性,又能够快速修复的产品。特别是,企业组织应该仔细研究一款既定电力系统的制造商对于其产品提供服务的速度和有效性。该电力系统的制造商雇用了多少服务工程师,他们在哪里办公,以及当您企业的数据中心站点发生中断事故后,他们将如何迅速地到达现场?他们的服务支持是24/7全天候的吗?服务工程师们对于制造商的产品了解熟悉程度如何?如果他们不能解决某个问题,他们是否有权限访问升级的资源呢?如果其制造商不能调度安排经过了严格培训的服务支持人员及时进行故障修复的话,那么即使最完善和最可靠的电力系统,最终可能只会有糟糕的可用性。
企业也应寻找那些具有冗余的,模块化设计的产品。如果一款模块化产品在这种系统中发生故障,那么其他模块将会自动补偿,增加了父单元的MTBF.此外,更换的模块往往会比传统的组件更容易获得,而且其过程通常也是很容易的,只需要一两名技术人员能够快速安装,往往无需制造商的协助。其结果是降低了MTTR,从而带来了更好的可用性。