打破在服务器基础设施上运行AI的瓶颈局限之二_IDC运维管理

在本文中，我们将帮助您企业数据中心准备并应对由AI应用程序为企业本地部署环境和云基础架构所带来的限制。同时，我们还采访了数据中心业界的同行们，邀请他们提供了相关的指导性建议，其中包括着重强调了企业数据中心与服务器供应商密切合作的重要性，这些服务器供应商可以为您的企业从早期阶段尽快过渡到稳步的高级生产阶段，进而充分利用AI功能提供相应的指导。

企业数据中心究竟应该如何应对?

IDC认为，目前正在考虑实施人工智能计划或正在从实验阶段转向更为成熟的人工智能部署阶段的企业用户可能需要随着时间的推移逐步推进其实施方案，以下，我们将与读者朋友们讨论几种AI开发方法。

1、从小型到中型AI项目的逐步推进

对于小型AI项目计划逐步向中型过渡的企业用户而言，我们建议在内部开发解决方案。这种方法有很多优点。通过协作实验，企业的开发人员、业务部门、数据分析师或数据科学家和基础架构团队将能够获得重要的新技能，同时为业务创建量身定制的解决方案。数据分析师和数据科学家没呢可以准备数据集和相关模型，开发人员则可以测试框架，而基础架构团队则可以评估要开发什么硬件以及用于生产的内容，并且业务部门将有机会设置解决方案的参数。但是，我们建议仅仅将这种方法用于独特的AI项目。如果企业所需的解决方案可以作为商业软件在市场上可以随时获得，那么商业化的软件包将通过实现快速部署的业务优势远远超过企业内部开发所带来的好处。

IDC建议，企业可以从小型和企业本地部署项目计划开始着手。这种趋势将是从一个与其他环境相隔离的专用服务器开始，但同时也需要意识到集成整合最终会变得重要。如果有AI培训组件的话，那么该环境将需要能够访问用于培训的数据，并且硬件需要能够进行强大的并行处理，理想情况下具有足够数量的加速器，例如图形处理单元(GPU)。环境可以由AI解决方案倾向于喜欢的集群，甚至包括具有多个节点的融合系统组成。但是，对于第一代AI基础架构而言，规模化横向扩展服务器中的硬分区也可以奏效。虚拟机或超融合系统则不太合适。如果数据对业务至关重要的话，那么承载数据的横向扩展企业级服务器中的硬分区则可能会很有用，因为企业组织不需要将数据迁出其安全环境。请注意，只有在Linux上运行的AI开发才有大量的开源框架。

一旦企业用户得到基础架构团队、开发团队和数据科学家们对解决方案感到满意之后，就可以运行该解决方案进行生产了，并能够逐步体验检测到软件和硬件的功能和局限性，届时企业将能够更好地确定下一步何去何从。这些后续步骤可能包括继续构建内部部署的内部功能;实施升级或扩展基础架构;添加云组件或聘请其他服务商，例如VAR经销商或顾问等。

在这个反复试验阶段，企业的基础设施团队彻底调查新的基础设施解决方案是至关重要的。如前所述，AI系统在单核和双核服务器集群上运行良好，每核具有较高的性能和I/O参数以及GPU等加速器。该团队不仅应该考虑从其传统供应商处采购服务器产品，同时也应该考虑其他的服务器供应商，尤其是那些提供完整的AI硬件/软件堆栈的服务器产品。其中一些供应商在部署AI系统的所有阶段均能够为企业用户提供帮助，从硬件的选择和优化到软件堆栈，直至后期的部署和咨询服务。我们建议选择企业客户应该对那些已经展示出了对AI和深度学习的基础架构要求有着深入了解的供应商。

确保您企业的服务器供应商可以在第一个实验阶段提供相关的建议，即使该阶段是在企业现有的硬件设备上部署实施的，这些建议也可以指导企业组织进行内部的部署或混合内部云扩展。理想情况下，服务器供应商可以通过几个乃至所有的小型到大型的场景指导企业用户的部署工作。换句话说，这些服务器供应商担任企业客户小型项目计划的顾问，同时也担任其下一阶段的更大的人工智能实施计划的顾问。

2、更大规模的AI项目计划的实施

企业实施更大的AI项目计划将得益于外部的支持。开发全面的人工智能解决方案的时间、成本和复杂性旨在为企业组织带来关键业务的创新，但除了拥有相当足够的资源的大型企业组织之外，一般的企业则可能不太适合采用内部试错法。第三方人工智能解决方案提供商可以像增值经销商或系统集成商那样，帮助企业客户快速实施解决方案，但他们的灵活性会大大降低，并且并不适合独特的业务需求。非常大型的项目计划则可以从咨询合作伙伴中受益。企业客户咨询其合作伙伴的成本往往很昂贵，并且可能会对这些合作伙伴产生长期的依赖关系，其初始部署时间通常很长。另一方面，最终的解决方案将完全根据企业组织的需求量身定制，并且如果执行得当，则可与数据中心实现完美的集成整合。

对于大型的项目计划而言，与具有AI专业知识以及拥有涵盖了整个硬件/软件堆栈的一系列AI产品的服务器供应商合作也能够为企业客户带来明显的优势。服务器供应商通常比第三方咨询合作伙伴的咨询成本便宜，并且比其他解决方案提供商对其自身硬件的优化和扩展有更多的了解。但请务必确保供应商具有扩展AI应用程序基础架构和深度学习的能力，因为规模化缩放加速的计算节点并不像仅仅使用CPU来扩展计算节点那样简单。

我们建议，企业的业务部门、开发团队和基础架构团队密切参与这一过程，尽可能确保其AI解决方案是定制化的，并通过培训开发相关技能。确保企业的该项目最终不会以只有服务器供应商或解决方案提供商才理解的“黑盒”解决方案的方式结束，这种解决方案无法实现很好的扩展，也无法与数据中心集成整合，并且会影响性??能或在数据量开始增加时带来局限性。换句话说，这些方法都不会让企业基础架构团队的任务变得更加简单。AI服务器供应商、解决方案提供商和顾问将提出硬件方面的建议，并对与企业内部开发相同的参数进行批判性的评估，包括：加速性能、I/O、可管理性和可扩展性。

请注意，就方法和部署而言，可以将上述这些场景中的几个组合起来。例如，企业内部构建的解决方案可以与云中的SaaS解决方案相结合以实现混合解决方案，或者企业内部构建的解决方案可以跟随VAR经销商更大的方案的实施而实施。最后，IDC发现，大多数企业组织对于其AI项目计划并没有明确估算其基础架构或软件的成本。企业需要为AI项目制定指标，包括软件、基础设施和人工成本方面的目标。他们还应计算投资回报潜力(通过提高生产力，降低成本或增加收入等方面的计算)，并确保他们在项目开始时收集有关这些指标的数据。

3、选择企业内部部署还是云服务?

对于一些较大的AI项目计划，可能存在SaaS解决方案。但是与任何基于云计算的软件解决方案一样，可定制性将受到限制，可扩展性将取决于提供商的基础设施，性能也会如此。而且，当数据量或交易数量快速增长时，成本可能会变得不利。对于关键业务数据、敏感数据或需要遵守法规要求的数据而言，需要对SaaS解决方案的安全性进行评估。

IDC发现，在部署了人工智能应用出现加速基础设施的企业中，有65%的企业在其内部部署了这些解决方案：22%的企业选择了仅仅只在企业内部部署;而43%企业选择了内部部署和云部署的混合模式。大多数企业表示他们已经发现到目前为止云计算体验是令人满意的，并将把AI工作负载转移到云服务。然而，这方面的迁移并不会影响未来24个月内所有可能部署中认知负载的整体分布;换句话说，企业内部部署的比例将仍然保持不变。某些AI使用案例并不适用于企业内部部署或云部署环境(但也存在一些例外情况)。基于数据安全问题的考虑，某些人工智能使用案例(例如医疗诊断和治疗)采取企业内部部署往往比云服务更为流行。然而，全渠道运营的商品化在云中的普及率稍高。尽管如此，企业内部部署、云计算，当然还有混合策略各自均有其明确的角色作用。后者很可能成为最有利的部署方法。

4、加速器

在本文中，我们曾多次提及加速器作为克服AI系统基础架构性能瓶颈局限性的重要方法，这对于采用深度学习算法的AI系统尤其如此，需要大量的计算能力来训练。在某些情况下，使用加速器对深度学习算法进行训练可以将迭代时间从几天缩短到几小时。

根据IDC的定义，加速计算是通过将部分处理卸载到邻近的硅子系统——如图形处理单元和现场可编程门阵列(FPGA)上来加速应用程序和工作负载的能力。随着企业寻求解决方案来克服CPU处理工作负载(如AI应用程序)的局限性，加速计算正在进一步获得企业用户的青睐。

GPU对于企业特别具有吸引力，因为它们可以通过现成的方式获得，并且可以使用标准库，这些库可以很容易地集成到应用程序中。然而，其他可提供更高性能功耗比率的技术，如FPGA、多核处理器和专用集成电路(ASIC)也开始受到关注：

一款GPU执行基于神经网络层的矢量和矩阵计算。GPU以并行的方式实现，提供了训练速度的大幅改进和更高的能效。多核微处理器针对并行或矢量化进行了优化，无需使用外部加速器。多核微处理器拥有比典型多核CPU更多的内核，并且是旨在大化处理器、高速缓存和内存之间的数据传输速率的体系架构的一部分。其还执行CPU的传统功能。一款协处理器是用于加速并行工作负载的PCIe卡。它集成了多核处理器，并包含专用的高速缓存、内存和操作系统内核，但需要CPU进行引导。 FPGA是一种集成电路，设计成由客户在制造后使用硬件描述或高级语言进行配置。FPGA由一系列可编程逻辑块、互连和I/O块组成。它们也可以重新配置。 ASIC是专用集成电路，不能在制造后重新配置。互连是GPU、FPGA或ASIC与CPU之间的数据连接。PCIe互连的大单向带宽约为16GBps，而NVIDIA的NVLink 2.0的大单向带宽则为150GBps。

大多数小型企业选择从服务器供应商处采购加速器作为服务器的一部分。这是一种方便的方法，因为大多数主要的服务器供应商都拥有加速服务器产品。较大的公司也会选择VAR经销商或系统集成商或直接从加速器供应商处采购。这种方法为他们提供了更大的灵活性，因为增值经销商和系统集成商将能够提供更加定制化的解决方案，同时直接从供应商处采购可以提供安装加速器的更好的灵活性。

在将加速器作为服务器的一部分进行采购时，会有一定的价格溢价。迄今为止，还没有几项基准来确定加速器作为既定服务器的一部分能够提供多少额外的性能，但是根据IDC的研究表明，采购此类系统的企业平均发现，在既定的总体性能增长的情况下，一定的价格溢价是可以接受的(请参阅下表3)。

加速固然非常有效，但其并不总是解决企业数据中心服务器基础架构瓶颈局限性的最终解决方案。这在很大程度上取决于服务器的核心性能、企业所选择的加速的类型、互连的类型以及诸如软件和数据等各种其他因素。因此，企业客户不仅需要考虑采用哪些加速器和共计拥有多少台服务器，还要考虑企业已经安装了哪种服务器，包括每个内核的性能和I/O带宽。选择一款平衡系统是非常关键的，特别是对于处于尝试各种模型的人工智能的实验阶段的企业客户来说，因为每种模型都会以不同的方式为系统带来压力。

表3、既定性能增加的可接受价格溢价范围

资料来源：《认知服务器基础架构调查》2017年6月，IDC