云部署和SaaS产品已经将许多工作负载部署移出了数据中心。然而,本地数据中心仍然承载着受法律限制的工作负载和数据,这些工作负载和数据太重要、太敏感或不切实际,无法信任外部供应商。这意味着数据中心的成功升级在很大程度上依赖于此。
升级仍然是提升数据中心 IT 能力的主要手段。它们通过更换老化或性能不佳的 IT 资产来建立弹性、提高性能、降低运营成本、增强安全性并控制停机时间。但升级总是带有风险因素:疏忽和错误可能导致意外停机、工作负载可用性问题、性能中断以及不可接受的管理或安全漏洞。重要的是在第一次成功完成升级,或者至少在出现问题时有能力有效地回退。
顺利、成功和有意义的数据中心升级的关键是准备。了解目标和每个目标的路径,并在路上遇到障碍,为升级过程带来巨大的收益。
1. 了解您的业务需求
当业务领导者选择不必要的技术投资或缺乏明确的 ROI 标准时,就会出现一些成本高和风险高的错误。升级不应作为新技术的展示,而应有助于企业更有效地运营和更具竞争力。他们应该专注于以下方面:
扩展重要资源,例如存储或计算; 为更多、新的或更新的应用程序启用新的工作负载; 支持额外的员工、用户或交易; 降低每个用户或交易的成本;和 构建 IT 能力,例如工作负载弹性、业务连续性和灾难恢复。
例如,服务器升级可能支持将多个工作负载整合到一个系统上,从而降低电力、空间和系统维护等成本。向基础架构添加存储就像向现有存储服务器添加新磁盘一样简单。包括一个冗余的负载平衡服务器,以提高关键工作负载的可用性。
2. 确定升级目标
在明确定义业务需求的情况下,确定升级项目的范围,并确定受升级影响的硬件、软件、服务、策略、流程和工作流。
升级从来都不是一个全有或全无的决定。升级范围可能非常狭窄和具体,因此请提前明确确定范围以防止潜在的灾难性疏忽,例如意外的硬件或软件版本不兼容。
考虑老化的旧工作负载和依赖于工作负载的硬件。您可以将重要的工作负载重新设计为更新的软件产品,在功能强大的新服务器硬件上部署更新的软件,并淘汰老化的硬件。在这种情况下,主要升级目标将涉及旧服务器及其旧应用程序。
此外,请考虑次要范围,例如依赖项。例如,如果那个老化的应用程序依赖于一个较旧的数据库,您是否必须升级该数据库及其硬件?应用程序或系统管理等实践被视为依赖项,您应该将它们包括在范围内。
3. 创建升级路线图
一个升级项目或目标通常涉及多个离散的升级任务。例如,升级可能涉及向基础架构添加两个服务器机架,但这可能还需要增加电源和冷却能力升级或增强 WAN 访问。
即使是像服务器升级这样简单的事情也可能涉及支持工作。例如,要将 2U 服务器添加到完整机架,您可能需要先重新安置一台或多台其他服务器以腾出空间。这些考虑可能看起来像细枝末节,但即使是小细节也可能会延迟升级。
检查预期目标及其依赖关系,并首先确定依赖关系。这可能是简单地重新定位硬件以腾出适当的机架空间或升级支持平台(例如数据库及其服务器)的问题,然后再推出预期的升级。
4. 确定升级技术
为升级确定新产品可能就像为存储升级选择新磁盘或为新服务器选择品牌、型号和负载一样简单。更大的升级需要更多的考虑。例如,如果需要更新一组相关服务器,请评估先进技术平台的潜力,例如超融合基础设施。
使用不熟悉的硬件和软件进行升级是灾难的根源,因此请尽可能在投入使用之前测试产品。使用动手评估和原理验证项目来验证新的硬件和软件产品,并了解它们的部署、设置、配置和互操作性注意事项。
5. 清理或增强现有基础设施
数据中心中的一切都有一个生命周期,而老化的基础设施可能会对业务构成障碍。当您审查基础架构以确定升级的范围和要求时,请花更多时间考虑可能不会直接影响预期升级但仍可以在更广泛的意义上使业务和基础架构受益的任务或项目,包括以下内容:
为关键应用程序增加冗余; 从不再需要它的应用程序中删除冗余; 更新老化的布线以促进更大的网络带宽; 更新配电和备用电源,例如配电单元和不间断电源子系统; 重新定位机架并关闭开放的硬件间隙以增强冷却气流;和 审查系统管理工具和功能。
这种切向或二次升级可以提高数据中心的性能、可靠性和效率。
6. 准备文件
大多数数据中心硬件和软件都需要各种各样的部署细节。详细信息包括默认网络地址、许可数据(例如激活码)以及设置和配置的详细说明(例如产品手册和用户指南)。
组织这些数据,并在启动升级任务之前确保一切可用。否则,由于缺少详细信息,业务将面临无法接受的延误和不必要的取消风险。例如,新软件产品可能需要许可证号或激活码。 IT 人员不想在凌晨 2 点执行升级时争先恐后地获取此信息,因为此时供应商的销售和支持人员可能无法及时响应。
7. 备份并准备恢复
当今的虚拟化数据中心环境使得将工作负载转移到其他服务器变得相对容易,这使您能够更换和配置空服务器。同时,您可以使用复制或快照技术复制在 VM 内运行的工作负载。尽管如此,错误和意想不到的后果还是会发生,即使是看似简单的升级也可能会匆忙横扫。在升级之前和升级期间,使用简单的指导方针为最坏的情况做好准备,例如:
对升级过程中涉及的任何服务器应用程序或存储系统执行完整备份; 测试修复过程并确保修复工作; 确保所有参与升级任务的 IT 人员都能成功执行恢复或回滚; 记录现有硬件和软件的当前配置——即使你计划淘汰这些产品——以便在必要时将它们恢复到已知的工作状态;和 记录升级期间发生的所有更改——例如更改 IP 地址或将 VM 移动到不同的物理服务器——并确保这些更改反映在系统或更改管理工具中。
8. 让利益相关者了解情况
升级可能会中断常规业务并使重要的工作负载长时间不可用。这会影响员工、业务合作伙伴、客户和业务领导者。数据中心升级应始终将利益相关者纳入流程。
升级项目通常涉及许多任务。因此,单独处理每项任务,并将其传达给利益相关者。常见的通信包括以下内容:
告诉利益相关者计划进行哪些升级,为什么需要进行这项工作,应该提供哪些更改或新功能以及工作何时进行; 提醒利益相关者升级计划——通常包括导致实际升级任务的几个提醒; 如果您遇到问题或延误,向利益相关者发送更新;和 升级任务完成并恢复正常功能后,向利益相关者发送完全清除通知。
此外,如果出现问题,请提供准确的联系信息以供支持或帮助台访问。例如,如果软件升级带有??新的特性和功能,请提前对支持人员进行这些更改的培训,以便他们能够有效地解决用户的疑问和问题。
9. 验证部署
完成升级任务后,测试并验证硬件或软件部署是否正常工作。例如,新服务器应该运行良好并具有安全配置。当您重新安装或将工作负载迁移回服务器时,这些工作负载应该可以通过本地数据中心网络访问。在这个阶段,IT 人员必须对性能进行基准测试和衡量,对升级问题进行故障排除和修复,或者在需要时执行回滚。只有当您知道一切都按预期工作时,您才应该在企业 LAN 或 Internet 上打开资源以供一般使用。
升级可能会破坏系统或应用程序管理工具。捕获所有数据中心系统和安全管理工具中升级任务所涉及的任何更改,或准备使用您收集的文档手动输入更改。一些管理平台需要额外安装代理或驱动程序,然后管理工具才能正确监督新资产。
10. 必要时系统地展开部署
分阶段推出涉及高度不确定性或风险的升级项目。例如,更新任务关键型遗留应用程序及其相关硬件涉及同时部署新资产——与当前资产并行——并打开环境部分进行 beta 测试,而不是简单地在升级中替换应用程序和硬件。这可以大限度地减少升级上线后不可预见的问题的影响,因为原始硬件和软件仍然可用且可操作。
如果新资产按预期运行,您可以系统地将其他用户组迁移到新资产。当您成功迁移所有用户并彻底验证新资产后,您可以将任何旧资产作为较小的清理升级任务停用并删除。
11. 考虑数据中心标准
对数据中心的设计、实施、性能或可用性没有既定要求。然而,政府、利益相关者、合作伙伴和客户已经开始期望在一定程度上遵守某些标准。升级项目是检查数据中心标准并考虑采用现有标准的价值的绝佳机会。
众多代码和最佳实践标准可以验证您的数据中心,包括 Uptime Institute、电信行业协会 942、美国国家标准协会/BICSI 002-2014、EN 50600 和一系列可选标准,例如能源和环境设计领导力、绿色地球仪和能源之星。了解每个标准的作用,评估其重要性或对您的业务的好处,并计划实施所需的标准作为正在进行的数据中心升级项目的一部分。