有分析公司认为,当前对于任何大型IT企业都必不可少的流程:容量能力管理往往都非常的复杂。而且,在当今加速发展的商业世界中,这种管理往往无法有效实施。优先级的改变、日益增加的复杂性和可扩展的云基础架构使得传统的容量管理模式已经不太奏效。在新技术的支持下,由创新的IT领导者推动,新的容量能力管理模式正在出现。这种新的模式将IT资源使用视为对业务有意义的,使用自动化和分析来管理复杂性,并减少人工操作。
在本文中,我们将与广大读者诸君共同讨论如何将容量管理中所涉及到的复杂监控、分析和预测缩减为一项健康的服务(当前绩效)指标,以及服务风险(未来绩效)的一个指标,使所有利益相关方更易于管理和更具可视化。
容量管理的战略优势
容量管理平衡成本和风险
在简化的意义上,IT容量管理是平衡业务服务的成本和性能的基础,其中基础设施的分配和配置是支点。如果您企业的基础设施配置不当或不足以支持业务需求,可能会发生长时间的响应时间问题和中断,从而使业务损失高达上百万。
避免这种情况的一种典型方法是过度配置基础设施,即估计所需要的容量,并使之翻一番。据估计,多达50%的云基础设施是未使用的,这种现象在物理存储中甚至更多。过度配置浪费了大量的硬件,软件许可和管理成本。而诀窍就在于合理化您企业的基础设施规模,以满足当前的需求,并确切的知道何时何地需要增加多少额外的容量。
为了有效优化业务服务,容量管理过程由四个主要步骤组成:
1、数据收集和管理。收集您企业环境中每款应用程序、服务和系统的详细信息和相关的性能数据。
2、数据分析。分析数据以确定服务的健康状况,潜在的性能问题以及这些问题的根本原因,以便您可以解决这些问题。
3、预测。准确预测资源短缺何时何地会发生,这样才能避免资源短缺。
4、提交可执行的信息。为各利益相关方:IT分析师、服务经理和业务领导提供他们可以据此做出决策所需的信息。
使IT变得如此具有挑战性的是,鉴于动态发展的技术,不断变化的业务需求和需求的增长都增加了复杂性,使得IT环境不断变化。时间一直是性能问题的本质,但是IT人员分散在各种任务和项目中,减少了确保服务交付的时间。最后,容量管理专长越来越少。根据一家业界领先的分析公司Research In Action预测,到2020年,容量和性能管理的技能缺乏将成为75%的企业增长的主要制约因素或风险。
或许正是由于这些挑战的存在,使得许多技术领导者认为,容量管理是一大竞争优势,在未来几年将会变得更加如此。据Research In Action预测,到2020年,35%的企业将使用容量管理工具来获得竞争优势(而今天的比例则为20%)。
有效的容量管理所带来的竞争优势:
1、减少了员工致力于提供高可用性和一致的服务所花费的时间
2、减少任务关键型应用程序的停机时间和瓶颈
3、优化硬件,软件和云存储投资
4、更有效的业务规划,使IT投资与业务目标保持一致
5、保护企业品牌声誉
借助自动化管理复杂性
近年来,大部分已经成功的部署了容量管理的IT企业均使用了分析和自动化。这种方法的优点是速度和准确性,即使在非常复杂的环境中,但需要花费相当的时间,并采用恰当的工具和流程来有效实施。
要了解这种方法,如下,让我们来探讨前面所述的每个核心流程:
1、数据收集和管理
2、数据分析
3、预测
4、提供可执行的信息
数据采集
性能数据必须以具备足够的细粒度级别进行收集,以满足业务交易的需求。例如,实时交易和在线购物需要比批量处理更多的细粒度。请记住,您企业所使用的收集工具必须以自动化和高度可扩展的方式提供详细,及时的数据,以确保项目的成功。
数据分析
传统上,这种分析是由容量管理专家通过简单的工具(如电子表格)“手动”检查数据;或通过构建和维护定制的工具和查询来执行的。这种类型的手动分析需要花费大量的时间和专业知识,并用到在许多企业中已经薄弱的资源。自动化是一大解决对策,尽管在这方面存在较少的可行解决方案。历史上,许多这些“自动化”解决方案仍然需要大量的时间来设置,并在提供有用的信息方面仍然受限。然而,技术现在可以用更实际和更有效的方式解决分析问题。
预测
为了准确预测性能,我们需要认识到,计算机系统的行为不是线性的。如果其是线性的,那么预测就像线性趋势一样简单。现实是排队发生。排队是指当一款CPU、控制器或其他设备有超出其所能够执行处理的工作进入时的情况。然后,服务不得不等待排队,就像排队等待在商店款台结帐一样。当只有很短的队伍或没有排队时,响应时间与所添加的工作成比例。您企业再添加一些工作,一些应用程序或基础架构,就有了更多的工作亟待处理。排队由此开始,突然间的延迟是巨大的。这就是所谓的曲线中可怕的拐点,之后的响应时间呈指数增长——等待时间比工作时间还要长,响应受到很大的影响。
经常,IT假设延迟将始终是线性的,而他们也正在疯狂地争取解决这一问题。
为了避免拐点,许多IT机构遵循始终不让系统所处理的任务太繁忙的策略,这意味着过度配置——保险但却造成了浪费。他们为避免拐点付出了太多代价。
你企业必须清楚的知道拐点将在何处出现,以便在没有过度配置的情况下避免它,这需要了解IT组件如何交互来执行工作。使用各种技术来预测性能的不同程度的精度,从Excel电子表格到线性趋势,到模拟建模,再到分析建模。
然而,直到最近,这些解决方案都需要用到大量的专业知识,专长和时间。庆幸的是,现在可以非常及时地自动获得预测。
提供可执行的信息
有效执行上述三个领域的结果应是生成可执行的信息和具备可视化的报告。由于IT决策通常对整个业务有影响,因此这些信息也必须以对非IT利益相关者有意义的方式呈现。例如,根据业务指标(如销售,SLA或正常运行时间)而不是根据诸如内存或I /O等IT指标。IT部门花费数百或数千小时为各利益相关者创建报告并不常见。尽可能的情况下,报告任务也应自动化,使IT人员能够专注于主动解决问题和创新。
案例:JN数据公司如何管理复杂性
实时识别和理解企业中值得关注的内容帮助JN数据公司的容量经理Henrik Tonnisen向主要客户(其中包括丹麦第三大银行Jyske Bank和丹麦大的抵押贷款公司Nykredit)交付提供了市场领先的服务,资源效率和透明度。
为此,Tonnisen将来自数万台服务器的技术数据融合到动态的自助服务报告中,以满足每个业务利益相关者的需求,将讨论从复杂的技术指标转变为可操作的业务信息。
Tonnisen表示,他们的团队在宣布推出新的自助报告仪表板后,获得了利益相关者的一致好评。
一种新的模式
自动化和分析已被证明对现代容量管理所带来的挑战是有效的。然而,直到最近,这些解决方案也仍然需要大量的时间和专门知识来实现有效的实施。
当前,一种新的模式正席卷了整个行业。这种新的模式使用自动健康和风险评分来识别当前和未来的性能,以及未来的时间框架和严重程度问题。这是游戏规则的一个改变:节省了时间,需要的专业知识更少,使所有IT10企业的容量管理更简单,更易于访问。
为了方便计算每项服务的简单,易于理解的健康和风险分数,在幕后运行的是复杂的算法。监控列表可以被定义为将注意力集中在您所使用的服务上,负责并且容易地确定需要采取的行动,无论是解决当前问题还是扩展容量,以避免未来的问题。您企业不再需要花费数不清的时间在数据上了。自动算法将为您执行。
为什么要实行健康和风险评分?
健康和风险分数涉及容量管理过程中的两大主要功能领域:
1、性能管理——识别和解决导致应用程序响应缓慢和服务中断的性能问题(健康状况)
2、容量规划——预测何时需要进行容量升级或额外的基础架构,以避免服务性能不佳或中断(风险)
健康和风险分数如何计算?健康分数
通过深入了解包含服务的每个系统来计算健康评分。分析排队网络模型用于计算实际的CPU和I / O性能,并与每个系统的理论最佳性能相比较。内存将根据当前的利用率进行评估,并通过查找与内存管理的正常活动级别的任何偏差来进行评估。通过检查当前可用容量和历史行为模式来评估磁盘空间使用情况。分析结果被整合并归一化,以创建一个易于解释的健康评分,范围从0到100,0-44表示健康状况不佳,45-54表示需要警告,55-100表示??健康状况良好。
风险评分
风险评分是通过运行容量规划算法来确定的,进而预测将来服务将如何运行。容量规划算法预测服务增长率对构成服务的系统的影响。分析排队网络模型用于计算未来的CPU和磁盘I / O性能,并与系统的理论最优性能进行比较。这些模型产生了一系列预测,这些预测说明了我们之前讨论的计算系统中固有的非线性行为。
通过评估活动模式并在预测期结束时预测磁盘空间的使用情况。基于这些计算,生成风险分数来表示预测风险的严重性。风险分数归一化为0至100的范围,以代表风险量,0-44表示低风险,45-54表示警告,55-100表示??高风险。除了风险评分,还将预计发生性能不佳或停电情况的日期。通过在预测结果中查找一次性事件和周期性行为来预测风险何时发生,并计算发生风险的天数。
简单性是王道
鉴于所有的工作自动发生在幕后,容量管理要简单得多,所有的IT企业都更容易访问。企业不再需要雇佣大量数据科学家,工作人员的工作时间得以节省下来,预测不再需要内行专家。 IT人员和服务经理可以查看健康和风险的单一指标,其次知道应该在哪里集中注意力。
准确性事项
算法和计算的准确性非常重要。那么他们有多准确呢?
1、对于CPU和I / O活动而言,到目前为止,准确的健康和风险测定使用分析排队网络模型。
2、对于磁盘空间和内存而言,智能算法评估利用率和子系统活动的模式,以准确地解释当前,并预测未来的利用率。
所有这些方法都适应工作负载,配置和其他环境变化。使用这些方法与复杂的算法,最终的结果是行业中准确的健康和风险计算,准确率通常为95%.
评估您企业的选项
目前市场上有各种容量管理解决方案,可满足不同的企业环境和不同需求。而为了有效地评估它们,比较功能和方法是有帮助的,并且有助于理解它们将如何影响您企业的容量管理成果。
为了确定IT和业务服务的健康状况,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:
标准阈值比较
增强阈值比较
事件检测
从正常运行到变化的比较
分配比较
排队理论
为了确定IT和业务服务的风险,通常会执行以下方法,其中已加标的项目代表在新模式中采用的方法:
线性趋势
增强趋势
事件预测
分配预测
排队理论
诸如标准阈值比较和事件检测等选项更容易设置,但提供的精度要低得多。分配比较和预测适用于虚拟环境,但是缺乏驱动资源效率的能力,因为它们需要考虑分配的内容与使用的内容。排队理论需要智能配置和细粒度数据,但在确定服务健康和风险方面提供了更为准确的结果。
在选择企业容量管理解决方案时,应考虑以下因素:
环境中的物理和虚拟服务器的数量IT企业所管理的服务的数量
未来3年预计的基建投资情况
目前基础设施过剩的程度
关键服务中断的潜在成本
这些因素将支撑能力管理投资的潜在回报,并有助于确定您企业所应该追求的解决方案类型。