数据中心网络的建设规模越来越大,采用传统网管式的管理根本行不通,人力、物力都面临很大问题,所以这几年经常有人提及要提升数据中心的网络运维的管理水平,希望通过提升网络运维水平,来降低数据中心的整体运维成本。俗话说“创业容易,守业难”,将一座规模庞大的数据中心建设起来并不难,难在日后长年累月的运维,要保证全生命周期不出故障或少出故障,需要付出极大的人力成本。所以数据中心建设得规模再大,如果运维成本也跟着上去,将很难获得运营利润,数据中心也得不到长期稳定的发展。网络运维面临的难题,与生产管理,物流管理,销售管理等企业管理行为的实质是一样的,所以可以将现代管理学中的一些手段引入进来,从而解决网络运维管理上遇到的各种问题。新的数据中心技术发展也给运维管理带来了改革的契机,在网络运维的管理上,数据中心必须做出改变、大胆创新,引入全新的全景式精细化的管理方式。
全景式是一种管理方式,即管理本身就应该是整体的,聚焦于任何一点的优化,都只是管理前进中的一步而已,真正需要的都是完整的管理提升。这个概念犹如我们一个个盲人在摸大象,各自都以为获得了大象的全貌,事实上只是一角而已。全景式管理要做的是联合所有的盲人,彼此沟通对象的感觉,组成真正的整体,换来大象的完整图画。做网络运维同样如此,要引入全景式的管理,从全局的角度去审视数据中心的整张网络,而不拘泥于细节,新一代的数据中心网络SDN技术为这种实现提供了可能。首先通过网络控制器采集所有网络设备的日志和各种事件信息,同时部署可视化的流量跟踪视图(对所有转发路径的可达情况进行检测),周期性自动获取网络路径质量状态,并跟随网络动态调整而变化,业务层故障时可自动关联物理设备。由网络运维的人员提前制定事件响应策略。然后,通过大数据分析算法,100%网络路径探测,将所有的运维数据进行计算和监控,当出现异常事件自动触发发出告警,并启动预先设置号的策略,进入修复流程,整个修复过程业务层面无感知。整个全景式采集数据、监测数据、执行动作形成一个完整的良性循环,通过人工智能和神经网络等先进计算技术,进行事件分析。针对某一事件可以按照该事件的发生时间前后、所在设备、严重级别、类别,与所在设备直连或邻近的其它组件,与所在设备存在访问关系的关联事件分析,提供快捷、准确、一致的分析结果。大数据通过不断地进行自我调整和修改,让运行逐渐达到一种稳定状态,由机器完成网络运维的自我管理。这时,运维的人员从工作中解放出来,将数据中心网络交给控制器软件进行自我学习和管理,这将极大地将人力从繁琐运维的工作中解放出来,节约网络运维的人力成本。管理的目的就是为了提升生产力,而全景式的运维管理不仅可以提升网络管理水平,还可以大幅节约人力成本。
精细化也是一种管理方式,源于发达国家的一种企业管理理念。精细化基本的特征就是重细节、重过程、重基础、重落实、重质量和效果,通过对管理目标的层层分解和细化、量化、规范化,确保目标可靠实现。网络运维也需要精细化管理,针对运维管理中的难点和薄弱环节,分步骤实现运行信息获取、运行状态分析和运行问题处置的精细化管理。所谓“精”是指对网络技术的理解和掌握的程度,要清楚的了解网络应用的瓶颈在什么地方,用何种的方式去优化。所谓“细”是指在大量的信息和数据面前找到对自己有用的信息,这点在平常的故障排除和网络优化上是非常有用的。也就是精细化管理要深入骨髓,对数据中心网络的每个细节都有所掌握、面面俱到,获得网络中所有设备的运行状态和参数、运行指标、运行日志,动态获取设备拓扑、设备配置的变化,并通过计算软件对这些信息整合、筛选和关联形成全景化的数据。精细化管理干的经常是运维工作中的脏活累活,有时还一时看不到亮点,但将整个数据中心的数据积累起来,将非常有意义。通过对这些数据进行分析、计算和管理可以做到管理的精准和高效,给数据中心带来获益。
经过以上的介绍不难发现,全景式和精细化两种管理方式在表面上看似乎是对立的。全景式强调的是整体,从全局宏观的角度去做运维管理;而精细化强调的是局部,从局部微观的角度去做运维管理。在一个数据中心里,可以将两种对立的管理方式同时应用起来吗?答案是当然可以!而且两者并不冲突,都可以给数据中心网络运维带来好处。全景式的管理依仗的是精细化的数据,如果收集的各类数据不完整,就无法看清网络全貌,全景式的管理就会有偏颇,效果会大大折扣;精细化的管理依仗的是全景式的指导,如果缺少全局的视野来指导,精细化所获得的数据绝大部分可能是无用的,对网络运维毫无好处,甚至会带来灾难。精细化需要全景式的指引才能获得最有意义的数据。所以全景式和精细化两种管理方式相辅相成、互为促进,在运维工作中要将两者有机结合起来,要胆大心细,即掌控全局,又注重细节,这才是新一代数据中心网络运维的管理需要努力的方向。在数据中心网络运维中,采用全景式精细化管理模式,将达到1+1大于2的效果。