数据中心光网络面临挑战
过去的10年是互联网高速发展的10年,随着产业的不断发展,应用种类极大丰富,用户规模空前庞大。往往一个应用就拥有千万级别用户,上PB数据量。在这样的环境下,早期的单机或集群的计算模式已经无法满足应用的发展要求,更大规模的云计算模式是互联网持续发展的必经之路。
受限于目前数据中心的规模问题以及异地容灾的需求,往往一个应用会分布在多个数据中心之内,导致在不同的云数据中心之间往往会产生几百甚至上千GB的带宽需求。在这样的背景下,光网络逐渐走入了互联网企业的视野。
腾讯的开放光网络平台是腾讯新一代光网络系统,基于超强的采集和控制能力不断提升光网络的自动化水平,目标是构建一个高度自动化、友好的光网络。目前,腾讯的开放光网络平台已经解决了硬件标准化问题,开发标准的OPC-4设备,实现电层系统与光层系统的解耦合,不再绑定单一供应商。同时腾讯开放光网络平台标准化的管控模型也已开发完毕。通过腾讯开放光网络控制器实现对不同厂商设备的统一管控。
开放光网络的未来——自动化
数据流量的快速增长,要求我们部署越来越多的带宽。互联网的时代,层出不穷的应用被创造出来,他们便捷了我们的生活,提升了效率。这些应用加工数据、产生数据,特别是一些新的、流行的移动应用在人群中传播速度非常快,随之带来的是流量的迅速增长,这要求我们必须以更快的速度部署带宽资源。为数据中心提供高质量带宽,保证带宽长期稳定运行,开放光网络的研发被腾讯提上日程。
为应对大规模数据中心快速增长的互联带宽,腾讯技术人员针对数据中心互联组网的特点,构建了一套开放光网络系统,通过将光网络切割成一个一个独立的标准化单元,设计为更加适用于数据中心应用的硬件设备OPC-4,TPC-4和设备管控模型,构建起标准化管控系统,实现对不同厂商设备的统一管理,混合组网,并将标准单元应用到数据中心互联中,在一定程度上能够更加有效的应对带宽的快速增长。
随着系统规模越来越大,网络运营压力也持续增大,腾讯正在为系统构建自动化自主运行能力,使系统能够常态化自动运行。腾讯技术人员依然是从标准结构入手,基于闭环控制的原理,为标准结构构建起自主运行的能力,使它能够自己管理自己,自己优化自己,使系统能够常态化自动运行。这样一旦标准结构具备了自主运行能力,便可以快速的将这种能力复制到整个网络,使整个网络能够常态化自动运行。
数据中心自动光网络迈进三部曲
数据中心互联光网络在持续向前演进,从最初依靠工程师经验驱动的光网络,到标准模型一统天下的模型驱动光网络,再向数据为王的数据驱动光网络演进。第一个阶段,主要依靠经验丰富的工程师,将不同厂商的传输系统部署到了数据中心网络。此时系统的复杂度是高的,因为虽然满足同样的需求,但是不同厂商的设备,实现的方案是不一样的,整个网络充斥着不同厂商的不同方案,面对本质上类似的技术问题,虽然掌握基本原理,但是要落实到具体的系统,就需要熟悉某个系统的专家来帮助分析问题,同时需要针对特定系统操作熟练的工程师配合,这个阶段运维大厅里坐着很多不同厂商的工程师。此时系统是最复杂的,需要最多的人来处理解决问题。
如何降低系统的复杂度?减少人工干预?答案是:标准化,程序化!通过构建标准化的流程,用程序去处理模型统一一致的物理设备,可以很大程度的降低整个系统的复杂度。这就是第二个阶段模型驱动阶段,这个阶段大家会针对自己的系统定义标准模型,而腾讯则更进一步,直接定义系统需要的硬件设备,这样即使不同厂商进行生产,但设备的形态保持一致,这明显降低了系统的复杂度,不用再去关注不同设备的细节差异,开始基于相同的模型构建,来对系统进行思考。
这个阶段强调的是模型的一致性,行为的一致性。当系统标准化后,对系统进行数字化升级改造,极大的提升了系统的数据采集能力,使系统能够采集到更多、更精细化的数据。为我们向下一个阶段:数据驱动的光网络演进奠定基础。
经历了模型驱动阶段,系统具备了标准模型,同时积累了大量的数据,使整个系统全景数据化成为可能。而源源不断的数据也成为了驱动系统不断发现问题,解决问题的核心驱动力,至此我们为系统构建起了一个数据引擎,驱动系统不断的优化和演进。
构建自动控制架构关键能力
腾讯开放光网络的自动控制架构,本质是一个闭环控制架构。整个架构的关键点是四大关键能力的构建:控制能力,采集能力,感知能力,决策能力。然后将这四大能力合理有序的串联起来,便可以实现整个系统的自动运行。采集能力采集到系统更加详尽、更加精细的运行数据,感知能力通过对运行数据的分析,感知到系统的变化,决策能力则是使系统具备科学分析,科学决策的能力,依据感知结果对系统作出科学决策,并将指令传递给控制系统执行,实现对系统的闭环控制。
构建光网络的感知能力
什么是感知能力?用人体的一个体验作为一个例子,如果人体被针扎一下或者手拧一下,都会体会到疼痛,人体体会到疼痛是一种采集能力,但是我们的大脑能够准确的从这两种疼痛不同的表现方式,感觉出哪个是针扎,哪个是手拧,这就是感知能力。可以看到感知能力是一种对数据的分析,并得到结论的能力。在传统的光网络系统中,对数据的感知往往是由经验丰富的工程师来完成的,腾讯正在帮助系统构建起这种能力,使系统能够在无人干预的情况下,自行实现对数据的经验性转化。目前腾讯开放光网络已经具备了控制能力和采集能力,正在进行感知能力和分析能力的构建。
腾讯主要是从两个维度来构建系统的感知能力,一个维度是:系统维度,另一个维度是:时间维度。系统维度,首先构建针对单个指标的感知能力,通过对不同指标的感知来判断系统变化。我们的系统从物理上看是由硬件和光纤组成的,而这两大类物理可见的物件,又是运营中可以操作的基本单元,构建针对硬件和光纤的感知能力,使系统能够准确的感知其故障和潜在风险,触发相关运维操作,便可以有效将非预期的故障转化为预期的网络操作,有效避免故障的发生。传输系统最终是一个带宽系统,我们常常会被用户问及现在带宽情况如何?带宽的感知能力构建则是让系统能够自行回答这个问题。带宽感知是系统最为关键的一环,使让系统能够感知带宽的运行状态,对潜在风险进行合理规避,有效降低带宽的非预期性中断,保证系统长期稳定运行。
而从时间角度,则要为系统构建快速感知能力,中速感知能力和慢速感知能力,这是从系统问题分析的时效性出发定义的能力。快速感知是对性能数据的实时分析,快速捕获系统故障。中速感知则是对系统潜在风险或者关键指标变化的分析和感知,这往往需要对一定量数据进行分析,才能发现一定的特征。而慢速感知则是通过对大量数据的分析来感知系统运行趋势,可以对系统未来的运行状况进行预测。
设备作为整个系统的运行数据采集终端,我们在想办法提升其采集数据的速率和精度,在我们的持续努力下,目前设备可以按照1s间隔向控制器推送性能数据,而且关键性能指标的时间分辨率可以达到20ms。控制器作为系统计算能力主要单元,则在持续提升其数据处理及时性和准确性。基于1s streaming telemetry构建的数字驱动系统,对比传统传输系统的15min性能数据,不仅仅是900倍的时间分辨率提升,更是对系统观测能力的革命。正是基于对系统的精细化观测,使我们能够精确感知、准确控制。
数据驱动为系统带来了革命性的变化的同时,也带了极大的挑战。数据驱动系统的核心是:数据与算法。我们希望在这两个方面与更多的合作伙伴一起合作,在数据为王的时代,数据源的质量直接影响到系统的正确表达,如何保证数据源的质量,如何监控数据源的质量,是一项关键任务。
而找到数据背后的真相,发现问题的本质则会从根本上改变我们和供应商的协作方式,由原来我们只能在问题发生后被动的接受故障分析报告,演进到可以根据数据发现的真相,有效驱动供应商进行精准的问题修复,防患于未然。在算法方面,找到针对指标感知更加通用的算法,找到更加合理的带宽质量分析算法,找到更加通用的硬件和网络系统分析算法,则是我们关注的重点,有效解决光网络系统问题的同时,更为通用的算法也可以更加便捷的应用到其他网络领域中。
结语:
在本次OCP China Day大会上,可以看到来自腾讯、百度、Intel、微软、浪潮、三星、希捷等不同领域的开放计算社区成员,腾讯的OPC-4和TOOP是开放的光网络项目,百度的天蝎整机柜是开放的计算项目,三星poseidon是一款存储产品,阿里的液冷是开放的数据中心散热项目……在这些开源项目背后,是计算、存储、网络等不同领域的开源项目正在相互融合汇聚,开放计算不仅推动形成了下一代数据中心的基本技术框架,也在加速构建开放融合的统一计算生态。