中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日网络分论坛上,腾讯科技程传胜先生就百度近年来自研交换机的实践和探索进行了分享。
腾讯科技程传胜
程传胜:刚才阿里、百度两位同学都从OS和运维层面介绍了自研交换机,接下来就由我和大家分享腾讯科技自研交换机的硬件实践。随着集群规模越来越大,网络也越来越大,传统SONIC交换机也越来越大,加上我们的自研交换机比较慢,所以基于单芯片的自研交换机应运而生。单芯片的自研交换机是我们自主的硬件设计,这样就会做到交换机内部的硬件可控,单硬件的故障率也比较低,因此硬件的规格和模式方面也做了一些创新,OS软件就是我们自主研发、拥有自主IP的交换机形式。
看一看腾讯自研交换机的历程,2018年之前腾讯对自研交换机无论是软件、硬件还是模式都做了不少探索和摸索,2018年公司层面开始厚积薄发,开展自研交换机的项目,主要包括两款产品:2.0TTD3平台,基于TH3平台的Leaf/Spine研发,2019年下半年规模上线,年底基于业务的发展需要集中研发3.2TTD3平台TOR,今年下半年我们就可以规模上线,2020年上半年Q1又启动了自研交换机3.0,包括基于TH4平台的Leaf/Spine和TOR。
这些是腾讯自研交换机的产品库,BMC监控运维方面也有一个比较好用的模块,当时引入的时候整个BMC大概300元人民币,软件监控和运维也有比较大的便利性,所以这是花小钱办大事的功能,就是像管理服务器一样管理交换机,交换机也可以借用服务器的运维平台,对外接口也是适用QR8接口,芯片使用Tomahawk3,也是采用TD3的芯片,可以监控20G、25G和10G,应用50G和100G的接入场景,CPU也是127,作为智能BMC的设计,目前已经量产上线,预计明年Q1就会上线。
我们选择交换机接口形态的时候也做了调研,随着芯片的发展和接口的多样化,可选的端口比较多,包括ESP、SMP,最终还是因为生态的原因选择200G,100G接入的时候是一分二的线缆,实现200G和100G的接入,要是往上接的话其实400G可以直接达到200G,我们使用芯片就是基于8.0T带宽,CPU平台同样也是采用Intel1527平台,因为从前面的运维和使用的角度来看,我们也对光模块做了监控系统,所以需要花费30多秒的时间。FPGA用来管理所有的光模块,也有比较强大的IO接口,所有的光模块都可以一起访问,共同点就是都在使用X86平台,硬件适配和软件开发周期会有比较大的缩减,运维或者制造的时候成本会低一点。
因为之前我们的团队刚刚组建,依赖的厂家比较多,94和84开始我们会采用新的研发模式,就是只能选择一家ODM厂商帮助我们设计,另外一家就是按照合同生产的方式,这样的话我们就可以做到两个厂家交互的硬件100%一致,可以带来很多好处,研发的时候不会发生很多问题。因为三家交付的硬件从概率上来讲,研发的时候发生的问题是好几倍,硬件完全统一的话研发的时候就会节约很多时间。我们今天所有的产品都拿过来在外面展览,大家如果有兴趣可以去看一看。
今年我们的部署计划是ECN交换机占到全部交换机的25%,明年我们的交换机会占100%,就是全部的自研交换机。基于现在已经部署的自研交换机的故障率,滚动年硬件故障率小于千分之二,目前来看还可以优于现网的交互数据,时间成本也有不同程度的节约。我们做到了DCN硬件的融合,因为交换机和光模块线缆都在DCN上面应用,数据的监控只有五个参数,电压、电流、光伏率和温度等等,能够诊断出来的故障数量或者速度也比较慢,然后就对后面的光模块在不增加成本的情况下做了如下的增强功能和监控功能的定制,但是这些定制也有赖于我们交换机的硬件设计,比如刚才说的IOTC的设计,虽然光模块监控的参数变多了,页数也变多了,但读取的时间没有增加反而减少,其实这就是光电结合的例子,后面也要做到更低成本的光电融合。