大家好,今天由我来给大家介绍一下华为在数据中心网络领域的一些研究的成果和我们的一些技术方案。
首先我们来看一下数据中心业务都有哪些新的业务需求和业务应用。刚才各位演讲嘉宾已经大概介绍过,包括AI技术,云服务,云存储,大数据服务、高性能数据库。数据中心业务的对网络的需求是大的连接带宽。未来像高性能计算这样一些业务对网络有什么样的新的要求,我们认为总结起来有三个关键的点,零丢包,超低时延,超高通量。为什么这么说,我们看几个具体的例子。
首先看一下计算的云化,AI技术的发展在大幅促进计算云化的趋势。大家都知道神经网络的算法,特别是深度学习的算法,很大程度上的突破带来了AI大量的繁荣,包括像AlphaGo,包括像人脸识别、语音识别、自然语义处理等。AI技术背后它的支撑是什么,支撑是越来越高的计算量的需求,越来越高的计算能力,我们可以看到高性能计算集群的规模,从几十台到上千台到上万台,计算量是P级别浮点每秒到E级别浮点每秒的大幅度跃升。传统的自建的方式很显然无法满足这种要求,传统的建设方式成本高,部署费时费力,扩展能力差,等等这样的问题,越来越体现出它现在的局限性。而我们认为计算云化是未来发展的必然趋势。
对网络的诉求是什么,高性能分布式计算对网络大的需求就在于它需要通过网络来进行远程的直接的内存访问,这样它对通信性能的要求就非常高。从单节点的角度来看,网络的丢包、时延等等这样的问题必然会带来性能的延迟,对同步实时性的要求很高。下面我们给出了一个例子,像谷歌的深度学习的算法模型,它会把它的节点分布到多台的机器上去,随着机器节点的提升,性能不是线性提升的,因为网络之间的通信会带两的延迟、丢包等等这样的问题,会对它整体计算性能来非常大的影响。
接下来看另外一个例子,存储的云化。天蝎的架构其实就是一个存储云化或者是数据中心解构趋势的一个很好的例证。从传统数据中心的服务器,麻雀虽小,五脏俱全,存储、计算、电源等等都集中在一起,到最后天蝎3.0整体资源池化,它带来的好处很明显,资源利用率的大化,消除存储的瓶颈。对网络带来什么样的要求,我们也可以看一下,存储有损网络,网络传统的数据中心交换机的阻塞、丢包带来时延的增长,最右边这张图也展示了一下IO访问的性能以及访问时延上,有损网络和无损网络的对比。大家可以看到,有损网络对于时延和IO访问的性能上的影响是巨大的,大甚至差到140以上。
再回过头来看,IP网络设计初衷是什么,包括以太网,是面向生存性优先的,面向高性价比的,面向无损性、面向业务的高可靠性是通过TCP,是面向连接的高可靠的传输协议。我们也列出来了TCP吞吐量基本的计算公式,吞吐量跟它的丢包和时延是反相关的。基础网络的损失,无论是在丢包时延上的损失,都会反映到TCP的吞吐量上去,底层网络的问题会相同上反映到它的应用层,这也是为什么华为在网络技术方面,面向数据中心的未来应用,我们推出了这样一个无损网络架构的原因。接下来看一下无损网络的架构都包含什么样的内容,我们重点有四大解决方案,动态虚通道技术,推拉混合的调度机制,负载均衡的逐包分发,Bus-LikeDCN,整体目标是要IP网络,从传统的粗犷无序复用变为可控有序复用。
总结一下,华为无损网络的技术架构,提供了三大基础的无损网络能力,无丢包损失,无时延损失,无吞吐率损失。我们认为对未来的数据中心业务它的三个诉求,零丢包、低时延和高吞吐,能够全面支撑计算云化、存储云化和网络云化的要求。这样的技术方案本身体现了华为20多年在电信领域的积累,把这些技术引入到IT领域,相信也能对IT领域的技术发展起到很大的帮助作用。
最后介绍我们两个最主要的新型业务的演示,一个是高性能计算,一个是我们NVMeFabric,这些技术也将在不远的将来落地到我们数据中心产品中,希望对我们中国微量的数据中心业务的发展起到帮助,谢谢大家。