数据中心的建设是一个整体结构,任何一个细节规划忽略都有可能导致问题的发生,规划设计的优劣,也只有在系统运行后才能做客观的评估,很多问题要经过较长时间,甚至是设备或系统的一个生命周期内才能暴露出来。因此,为避免数据中心建设完成交付后,因建设时未考虑周全出现的问题造成工期延误而需要返工,以下是确保数据中心规划设计人员坚持正确方向的关键问题:
1、你需要多少个机架?它们的尺寸是多少?
机架的数量决定数据中心的空间需求。传统的IT机架的尺寸为600x1000mm(宽x深),而一个空间为100平方米的机房可以容纳大约50个机架。当然机架也有其他的尺寸,而知道机架的尺寸和机架的数量,就很容易估测你的数据中心所需的空间。
2、你需要什么等级的数据中心?
数据中心的Tier等级确定了数据中心的冗余要求和电源分配路径。对于一个Tier2级数据中心来说,部署“N+1”架构的电源和冷却设备的冗余是足够的。然而,对于一个Tier3级的数据中心设施,通常都会包括“N+1”冷却设备冗余,具有双供电2N电源冗余,以及独立的双路配电机架。因此,了解数据中心的等级可以决定你需要的冗余设计。
3、每个机架平均功率密度是多少?
要注意的是,当你设计数据中心的电源容量时,应该根据平均功率密度,而不是在大额定电源,这是很重要的。机架的平均功率密度乘以机架的数量才是数据中心的大IT负载量。然后,再加上数据中心的电源系统,冷却系统和交换机和存储设备等设施的功率。为了避免产生昂贵的成本,并充分利用电力系统,使数据中心具有大小合适的电源和空间,采用模块化策略是明智的,可以降低成本,而不必牺牲未来扩展的灵活性。
4、数据中心的交流机架或直流机架需要什么级别的备份电池?
服务器机架可能需要部署百分之百的直流电源,或百分之百的交流电源,或者是二者的组合。例如,如果您正在为托管目的建设数据中心,你可能有配备交流(UPS)供电系统的需求,而如果是要成为一个电信设施,这可能需要部署直流电源系统。知道这些,就会知道你所需要的直流电源或UPS电源系统的大小和规模。
在部署备份电池时,好根据15分钟备用放电时间进行配置。这样部署备用电池,不会显著增加资本支出,虽然这将很难自圆其说,但这更符合成本效益。企业需要提高备用发电机组的冗余度,而不是在增加电池数量浪费更多的资金。
5、数据中心将建在哪里?
分析新建的数据中心所在地的气候条件是十分重要。这将有助于确定最合适的冷却措施,其中包括水冷机组,机械制冷空调,自然空气冷却、间接空气冷却,绝热冷却等,这些都是为了数据中心设施实现其更低的PUE目标。
6、在脱离实际需要和可行性情况下可以确定高指标么?
在规划设计初期,主观臆断确定数据中心的功能指标,不切实际地一味追求规模大、高可用性等级、高机架功率密度、低能耗指标PUE,而具体规划设计时,又没有严格按照规划原则和程序做详细的论证,具体方案和实际措施与总体规划部匹配,其结果是:
1.由于实际需要不明确,缺乏可行性的必要条件,反复设计、修改,不仅造成成本的浪费,还大大延长了建设周期;
2.已建成并投入使用的机房得不到充分利用,究其原因或因无预想的业务需求量,或因机房条件不满足用户需求而必须进行再优化改造才能使用;
3.规划设想的功能不能实现,诸如系统可用性达不到规划等级、制冷方案不支持规划的机架高功率密度、发电机不支持系统连续运行条件、过度规划使系统能耗指标PUE居高不下等。
7、业内普遍存在着轻规划设计,重施工建设的认识误区?
业内特别是用户信息主管存在轻规划设计,重施工建设的认识误区,主要表现在:
1.先建楼体结构,后规划数据中心,为数据中心规划设计带来难以克服的困难;
2.机房建设和设备安装完毕即开始改造的现象普遍存在;
3.先确定设备,再确定方案,由于所购设备功能不满足方案要求,或场地不满足安装条件要求,因而设备尚未运行就要更换;
4.建设结构很难满足数据中心场地布局要求,使机房分区规划不合理;空调室外机无法安装或距离太远;动力室与主机房距离太远,增加传输和管理困难,增加成本,降低可靠性。
8、业内普遍存在着重设备,是否会忽视系统的认识误区?
业内特别是规划设计人员普遍存在着重设备轻系统和重局部忽视大局的现象,主要表现在:
1.先确定设备规格型号甚至生产厂家,然后根据设备选择或修改设计方案;
2.供电系统按高可用等级2N冗余设计,但所设计的结果是仅仅UPS系统有2N功能,而整个供电系统却存在单路径故障点;
3.整个系统按高等级冗余容错系统设计,但是空调制冷设备却是单路径供电;
4.为系统配置了交流备用能源柴油发电机,但发电机没有自动启动功能,因为规划设计者缺乏连续制冷也是系统连续运行的重要条件的认识。
9、对可用性设计是否缺乏科学依据?
系统可用性是数据中心规划设计的最重要的指标,但规划设计时缺乏科学依据;主要表现是:
1.数据中心在规划设计时都会进行各系统可靠性的推算,但目前各设计院、不同的设计人员对可靠性的推算依据和数据来源尚未统一,造成对同一数据中心的设计等级和可靠性存在不同定义和不同的结果;
2.对可用性存在着先进行规划设计、施工,建设完成后再反推设计等级的案例,并以反推的等级标准向数据中心用户进行推介。此为本末倒置的设计,往往因为设计中的某些关键缺陷导致虽然绝大部分设计满足等级要求,但因为关键缺陷的存在造成等级下降;
3.只注意设备或环节(子系统)的可用性,而忽略在整个系统中各子系统之间的相关性对可用性的影响。
10、普遍忽视对系统可维护性和可修复性设计
系统三分建设、七分维护,任何设备都是有故障的,可修复和可快速修复已经成为提高可用性的关键指标,忽视可维护性和可修复性的现象表现在:
1.规划设计阶段未考虑后期维护通道、维护空间,例如设备距离墙壁太近,电池靠墙摆放,线缆布局不合理、线缆管路或走线架挡住上方弱电线槽导致后期无法维修、维护工具难以施展等;
2.故障发生时,应急物资和备件无法快速搬运,故障设备和器件更换无维修操作空间等问题,延误了故障处置时限甚至引发重大事故;
3.应考虑后期发生故障进行设备维护时系统的冗余保障能力;
4.尽可能采用自动化手段,大程度压碎维护人员手动操作环节,在数据中心维护操作中,依靠维护人员手动操作存在较大的不确定性和不可控性。
11、受内外部因素影响,不能正确对待倾向、喜好、限制和约束的区别,不遵守科学设计原则
1.受审批、决策等环节个别决策者影响,对一些关键功能按照个别人的意见进行删减调整,导致最终交付的数据中心功能不能满足运营和维护需求;
2.出于倾向、喜好或利益驱动,在规划设计阶段部分设备厂商会通过夸大设备性能、混淆概念等手段影响规划设计人员的方案制定和设备选型。
12、统筹设计问题的注意
提高系统统筹设计能力对优质地完成规划设计任务是非常重要的。
1.在数据中心建设过程中存在着大量因规划设计对分阶段、分专业实施阶段工程,以及不同专业施工间衔接问题考虑不足造成交付的数据中心不满足业务及维护需求,有些问题甚至需要大笔投资进行改造方可完成;
2.不同设计人员只关注自身所负责内容,对于其他专业的是否完美衔接,是否与其他专业设计之间存在矛盾和冲突缺乏全局考虑;
3.规划设计人员对未来业务发展缺乏准确把握,对后期容量管理、扩容等方面考虑不足;
4.规划设计人员对周围资源环境和物理环境不熟悉,所设计的方案会出现实施可行性差或者为后来运维工作带来难以克服的困难。
13、运维人员应参加规划设计工作
1.运维管理部门参与前期规划设计,可以弥补设计人员对系统运行和管理知识不足,提高设计质量,避免或消除设计缺欠;
2.运维管理人员参与规划设计,可将运维阶段的需求在规划设计中得到充分考虑;
3.运维人员参与前期规划设计,可充分了解和掌握所维护系统的结构、可靠性薄弱环节、遗留问题、潜在风险,有助于提高运维质量、有根据地制定运维计划和切实可行的改造计划。
总结:
在新的数据中心的建设中还有许多其它需要考虑的问题。但行业的经验告诉我们,在数据中心建设和设计过程中掌握这十三个关键基本设置重点,将确保最终的数据中心设计尽可能接近用户的真正需要。