随着行业信息化与IT战略在全社会的广泛推进,国内数据中心、IDC市场进入了崭新的发展阶段。在需求端,IDC业务逐步呈现灵活化、快速化、定制化的趋势特征,推动数据中心迎来整合、云化转变的大潮。而运营模式的转变同步带来了IDC资源管理的诸多挑战,包括资源量大类多、精细化管理要求更高,资源协同均衡管理难度更大等。
面对挑战,如何构建全面、高效的云数据中心资源管理体系,成为了破局的关键。对此,中国移动安徽公司从软硬件两大线条入手,针对打造集中资源管理支撑系统,并建立全生命周期运营流程机制,以“管的准”与“用的好”为实施导向,实现IDC资源精准管理、挖潜增效,持续提升数据中心资源运行效率。
一理三管,实现资源“管的准”
近年来,大型数据中心数量突飞猛进,跨数据中心云化格局逐渐成型,其规模、复杂程度与形态转变等因素造就了IDC资源数量多、种类多、层级多的现状局面。数据中心资源要想“管的准”,亟待实施分步精细化管理解决方案。首先要理清资源,将现有资源颗粒分门别类、全量收集,再从既有存量资源管理、动态变更资源管理、资源常态纠错三方面入手开展闭环维护,即“一理三管”,实现资源精准管理。
理清资源,是资源管理的基础前提。以目前通用的云IDC、传统IDC业务入手,可将数据中心资源分为云资源、网络及安全资源、传输资源以及动力配套资源共4类资源。再由总到分,将4大资源总类划分为9个资源池子类、31个系统细分,分别梳理各资源的容量、占用情况、可用情况、运行状态、监控状态等资源清单,并实时监控。以动力配套资源总类为例,资源池子类可分为空间资源、供电资源与制冷资源,其中空间资源按层级可细分为机柜、微模块、机房;供电资源按供电拓扑可划分为高低压配电、油机、通信电源;制冷资源又可分为单机柜冷池、微模块冷池、制冷站冷池三类。统筹资源颗粒,掌控各类异构资源形态,是一切精细化管理手段的数据基础。
存量资源管理,即对数据中心当前既有资源实现集中监管。在理清家底的前提下,依托集中化资源管理模块,借力动环系统、综合网管系统、传输网管系统、云管理平台及人工调节录入五大支撑手段,精准对接全专业资源的实时监控数据,从而实现全量资源的自动化采集,对既有存量资源实施统一管理。在此基础上构建管理功能清单,建立可视化系统组态模型,精准核算资源容量,明确可用空间,为下一步资源管理提供指导依据。
变更资源管理,就是针对资源的动态性进行常态化精准维护。在既有资源全面纳管的基础上,根据传统IDC、云IDC两类业务的不同阶段实施情况,制定资源管理闭环流程。针对传统IDC的机柜+带宽业务,按照预占申请、实施、回收、扩容等环节实施资源管理;针对云IDC业务,发布云资源管理流程,明确资源申请、分配、回收管理规范。同时,以集成IDC运营管理平台为跳板,将既定管理流程内嵌固化,实现变更资源闭环管理,确保资源数据长效准确性。
资源纠错管理,可对资源长期扭转造成的数据错误进行校正。从生产实际经验来看,伴随着资源的动态变化,各类资源不可避免的会因工程调整等原因而导致一定程度的数据勘误,可依托资源关联关系,以业务入手,将每个客户占用机柜、带宽等资源叠加,与系统已用资源进行比对,从而开展自动核查;并通过定义各专业数据核查质量报表,定期组织人工核查复验,双管齐下,建立长效资源数据纠错机制。在自动化资源纠错盘点方面,目前业界已有较多的前沿试点投入,如智能巡逻机器人,其内设网络设备、服务器等设备形状、指示灯含义、数据模型等参数,通过设置巡逻路线,自动巡检机房并将资源数据实时上传,全自动化实施核查工作。
统筹兼容,实现资源“用得好”
以运营商云IDC为代表的新型数据中心,区别于传统自用数据中心,涉及的资源分布更为零散、业务场景更多元、资源协同均衡管理难度更大。如未充分考虑资源协同,将会导致资源效益无法大化发挥,造成浪费与瓶颈并存局面。云IDC资源使用,需要在资源“管的准”基础上,从业务着眼,构建多维度资源关联集合,再从刚性资源需求与柔性资源需求两大分类入手,依据业务特征套用资源分配原则,制定统筹兼容的资源解决方案,从而精益化挖潜资源效益,实现资源“用的好”。
以业务为资源分配的着眼点,是资源大化挖潜增效的正确前提。目前业界常规IDC业务可分为8类需求。其中机柜+带宽、机柜+带宽+增值、计算+存储,这3类可定义为刚性需求,即客户有明确资源需求的业务;而WEB、数据库、缓存、媒体、游戏等5类应用,因只要求保证业务感知,而对各类实际资源需求并不明确,可将其定义为柔性需求。从以上不同需求特征出发,将每类业务占用的资源情况分层梳理,可清晰确立每种需求的资源分配模型。
针对有明确资源刚性需求的业务,在可用容量满足的条件下,以资源均衡性为原则,依托现有资源管理系统设置后台资源分配规则,将业务自动部署在最优位置,规避瓶颈或浪费。如机柜+带宽业务,可依据资源利用率、多种资源均衡性、业务连续性等指标进行资源分配;机柜+带宽+增值服务业务,除以上三种原则外,还需进行群组设备在CDN、安全等方面的增值服务能力考量,进行合理分配;而计算+存储业务,则应按照资源池、集群、设备三层级,以资源利用率为参考,实行“最低最优”原则分配。
针对需求不明确的柔性需求业务,可通过“四步走”制定适配业务类型的资源解决方案。第一步:归纳业务特征。针对5类柔性需求的业务类型,使用loadrunner软件对各典型业务系统进行测试,监控资源和应用指标数据。第二步:总结硬件特性。在计算能力方面,裸金属大于虚拟机;存储容量方面,分布式存储大于裸金属本地硬盘;I/O能力方面,分布式块存储大于分布式文件存储;文件类型方面,块存储适合小文件读写,文件存储适合大文件读写。第三步:形成基于业务特征的资源配置模型。如WEB业务,可得较优配置为虚拟机+分布式块存储,数据库较优配置则为裸金属+分布式块存储。第四步:在配置模型基础上,制定基于业务并发量的具体配置方案。以WEB服务器为例,额定并发量为100,则应分配4核CPU、8G内存、IOP设置为1000,并配置分布式块存储。
资源自动回收,就是对已闲置的云资源进行重新归类更新。可在IDC云管理平台中配置闲置资源回收管理模块,通过自动抓取比对虚拟机利用率信息,输出闲置虚拟机清单。同步建立回收资源的统计分析能力与回收闭环流程,实现闲置云资源的自动回收纳管,从而规避资源浪费,实现资源“用的好”。
面对当前资源管理方面的诸多挑战,安徽移动云数据中心集中资源管理体系以“按需部署,随需而变”的理念,有效实现了资源多维度精准管控,使资源利用率大化。其改变了传统IDC的资源管理模式,是满足互联网业务发展与IDC服务转型、应对复杂的多业务环境、满足IDC低成本高效运营的重要手段。在信息化与数据产业高速发展的今天,数据中心势必还将迎来众多未知的转型变化,但只要坚持立足业务,遵循资源规律科学调控,即可在错综复杂的现状中执简御繁,应对自如。