数据中心运维管理是一项十分繁琐和复杂的工作,但目前看来从事这项工作的人员中还普遍存在着相关知识与经验不足的现象。各公司的当务之急是,必须认识到可持续运营计划的重要性。要实现可持续运营,各公司必须立即行动,评估各自当前的运营计划,并开始制定能够避免犯常见错误的运营方法论。
第一大错误:将数据中心场地基础设施运营团队排除在设施设计过程中
采用能够平衡初始资金投入和运营成本支出与公司需求的总体拥有成本 (TCO) 方法,是打造最有效、最经济和高效数据中心的第一步,其中包括根据公司的具体情况确 定数据中心的设计标准并确定其性能特性。
根据我们的经验,如果在数据中心场地基础设施设计阶段将运营团队排除在外,其结果往往在数据中心交付以后需要对基础设施进行整改和维修。譬如,遇到以下情况,我们不得不对一个崭新的数据中心进行整改。
● 没有设计足够多的分支电路,导致各种维护作业;
● 发电机组设计和安装不合理,导致简单的维护作业也很困难;
● 由于楼宇设计缺陷,导致空气处理单元无法为数据中心提供所需要的气流。
如果在设计过程中考虑到运营计划,这些错误本来是可以避免的。当您让运营人员参与到设计阶段时,就会“在设计时胸有成竹”。这就是TCO方法的实质。
第二大错误:过分依赖于数据中心的设计
许多企业认为,如果设计了高度的冗余,便可减少在运行和维护计划方面的投入,这种看法是极其错误的。对数据中心中发生的停机的各种研究得出的结论都相同:人为错误才是罪魁祸首。正确的运营(而非设计)既可维持设施正常运行、又可控制成本,既能保护公司投资,又能保护公司的声誉。许多公司错误地将大量的资金投入到稳健的、冗余的设计中,却忽略了适当地投入到运营的预算,这种情况屡见不鲜。
比如,许多企业将关键设施运营交由专门维护写字楼的物业公司执行,而这些公司根本不具备运行或维护关键设施的专业技术。
典型的办公室空间设施运营都是基于这样的理念,就是系统可以停机进行维护或维修。短暂的办公楼系统故障只可能给内部工作人员带来不便,但如果数据中心发生严重的停机事故则可能危及公司的企业使命。建造数据中心基础设施和组建其运营团队时,公司都应该牢记的唯一目标就是:大限度地延长正常运行时间。传统的设备维护计划 无法充分满足任务关键环境的以下特殊功能和需求:
● 性能——持续运营是核心业务的要求;
● 可用性—— 100% 的正常运行时间,不允许任何的系统停机发生;
● 系统复杂性——冗余系统、故障自动转移、紧急恢复程序;
● 责任制——过程文档化、变更控制和可供审计的记录。
满足以上需求的关键在于通过正确的方法论打好关键设施运营的基础。
为了确保满足这些关键需求,一开始就应确定完全合格的数据中心场地基础设施运营人员。选择错误的员工或让运营人员在设计后期才参与进来将让您错过打造运营卓越的数据中心的机会。
第三大错误:人员配置不当
许多公司根据一般楼宇管理标准估计数据中心场地基础设施的运维人员配置需求。在数据中心环境中,如果低估了人员配置的需求,就会有导致出现紧急情况时无人在场的风险。人员配置应建立在风险预测和预算的基础上。公司应综合考虑应急响应、设备维护和供应商管理等因素,建立时间表来以最佳方式部署人员。
同样,雇佣并留住合适的人才也至关重要。招聘具有专业技术知识的优秀人才极具挑战性。公司需要仔细甄别未来团队的成员,不仅要对其进行传统的背景调查,而且必须了解他们是否具备合格的技术能力、管理能力和沟通能力。所有这些技能在关键设施运营中具有至关重要的作用。然而,仅仅挑选出合格的操作人员只是第一步。