数据中心的网络规模变得很大时,不得不要增加网络设备,实现多层级联。现在的数据中心往往都是树形结构,核心放置几台转发容量超大的设备,然后下挂多层设备(因为端口数量不够,可能需要多层),数十台甚至几百台的网络设备级联到一起,一旦出了故障,如何能快速找到故障设备,经常困扰着很多网络运维人员。

数据中心的网络设备都是有冗余的,只要网络故障时找到故障设备,将其隔离即可恢复业务,然后再去慢慢排查故障原因,但从数百台的设备中找到具体哪台故障绝非易事。网络故障往往先从应用侧得到故障反馈,然后开始排障,这时应用人员往往描述的只是一个应用访问故障现象,他不会告诉你具体哪些地址到哪些地址不通,有时甚至是错误的信息,这极大延误了问题定位时长。问题定位大部分时间都是花在故障现象的整理过程中,怎么办?数据中心网络该如何快速排障?本文将给出答案。

网络故障如果要从应用侧反馈的故障现象去分析,这时已经晚了,而且容易被应用人员带入误区,有些应用人员反馈的现象只是他自己看到的,现象很可能只是一个局部现象,并不能反映出整个网络的故障情况。所以要靠自己,做好网络监控,通过监控去发现问题,从而迅速找到故障设备,做设备隔离或者解除故障。

早期的网络监控主要是对设备的一些日志和端口流量做监控,更多的时候这些信息并不够,并不能及时发现问题。很多网络设备厂商说自己的设备日志非常完整,但实际使用时仍有一些极端情况或者软件BUG导致故障时无日志输出,这时就要针对流量进行定位。到了这个时候,就需要网络人员去找应用人员了解故障现象,通过现场找出一些丢包或者不通的IP地址来,然后进行网络流通,对这个故障流量经过的设备都做流通,找到故障设备。既然是树形网络,每一层都有很多设备,这个流通量是相当大的,而且并不是所有的设备都能支持对所有特征的流量做统计,有不支持的设备就会使得统计不准,加大了寻找故障设备的难度,做网络运维的这些年都是这样坚持过来的。  

显然,之前的网络排障方式有效但效率太低,定位故障时间长,对业务影响大。现在的网络监控都是针对数据流的,对网络中的具体数据流进行监控,这样一旦数据流量有中断,立即可以查明故障位置。在这里,要提到几种新兴的网络监控方法,也叫网络可视化技术,是快速排障的最有效方法。

首先是INT(In-band Network Telemetry,带内网络遥测技术)技术,INT通过在数据层面收集和报告网络的状态来实现对网络状态的监控。当数据报文进入第一个网络设备时,设备上设置采样方式采样并镜像出该业务流报文,INT在报文基础上封装一个INT头,并将需要收集的交换机信息填入到INT数据段中,报文经过的所有网络设备均这样处理,直到最后一个服务器连接的网络设备将INT头剥离。

报文经过的每台设备都将采集到的INT报文通过gRPC报文发送到远端的监控服务器进行解析和呈现,INT报文中携带了报文转发的延迟、设备拥塞等情况,都能呈现到监控服务器上,一旦数据报文出现丢包或者不通情况,监控服务器立即感知到,并几秒就能确定问题范围和故障设备。

其次是ERSPAN(Encapsulated Remote Switch Port Analyzer,跨三层IP传输的远程网络流量监控技术),ERSPAN的报文基于GRE封装,并通过以太网转发到任何IP路由可达的地方。ERSPAN是将源端口报文复制一份通过GRE(Generic Routing Encapsulation)发送到目的服务器进行解析,采集服务器的物理位置不受限制,这样我们可以将整个网络的关键流量转发都通过ERSPAN发送到监控服务器上,流量在哪部分网络出现了丢弃,一目了然。第三是sFlow和Netstream,这两种都是数据采样技术,Netstream采集的比较完整,但需要有专用的硬件来完成,在网络中部署sFlow和Netstream后,可以通过gRPC将监控数据发给服务器,由监控服务器计算和整理,并将结果图形化显示出现,一旦哪部分网络有问题,立即可以在监控服务器上显现。

sFlow和Netstream采集的都是报文头的主要特征,而不是报文整个内容,这个和INT、ERSPAN有较大区别,应对绝大部分网络故障排查都没有问题,除非应用报文特征比较特殊,Netstream捕捉不到,这时只能求助INT和ERSPAN。在一个网络中,并不介意三种监控方案都部署,这样在故障时,可以从多个角度采集的数据去分析问题。

还有一点很重要,尽量要将这些数据采集通过管理网发向监控服务器,否则一旦数据网出问题,可能监控的数据也无法正常达到监控服务器。大部分情况下,数据网络故障很少波及到管理网,所有设备依然可以正常访问,如果故障时,很多设备都无法通过管理网进行访问,基本可以判定这台设备就是故障点。  

有了以上这些网络监控方法,出现故障时第一时间发现就不难了,而且完全可以实现自动化,当发现故障时,由监控服务器自动下发隔离命令,将故障设备隔离,自动恢复。这样在应用报障过来之前,就可以找到网络故障位置,及时隔离故障设备,恢复业务,这样可以极大缩短故障分析时间,对业务影响很小,甚至业务部分根本感知不到故障。像INT和ERSPAN这些网络监控的技术实际应用的效果还未知,都是最近总被提及的技术,还有待实践的考验。SFLOW和Netstream技术比较成熟,但真正在网络排障时用到的还不多,需要加大这方面的推广。

依靠这些监控技术,可以快速排除网络故障,这对于数据中心运维来说,意义重大,极大地提升了运维效率。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 13:38:58
国际资讯 微软加大可再生能源投资 亚利桑那州新数据中心将主要使用太阳能
为了减少数据中心的碳足迹,微软正在加大对太阳能的投资。2023 年的时候,其数据中心有望使用 70% 的可再生能源。亚利桑那数据中心的可持续发展项目,一直受到很多人的关注 <详情>
2019-07-31 09:41:00
国际资讯 英特尔公布Q2财报:数据中心压力陡增,物联网业务实现较大增长
日前,英特尔公布了 2019 年第二季度的盈利报告,实现营收 165 亿美元,同比下降3%;净利润为 42 亿美元,同比下降 17%。报告称,下降主要出现在数据中心业务,而在客户计 <详情>
2019-07-30 15:08:00
国内资讯 投资6亿美元 谷歌在德克萨斯州建第二个数据中心
谷歌在德克萨斯投资的第一个数据中心获得批准,该数据中心目前已开始施工。 <详情>
2019-07-30 13:12:04
机房建设 数据中心机器学习如何优化运营
机器学习和人工智能是当今IT专业人员的热门话题,而在企业的数据中心,它们拥有真正的前景。 <详情>
2019-07-29 20:36:30
UPS电力 发电机组和UPS电源之间的配合问题
近年大型的数据中心的建设得到迅猛增长,将应用越来越多的大功率UPS,由于要控制UPS所用蓄电池数量,大功率UPS的后备时间基本上都是15-30分钟,这样就需要匹配发电机组,为 <详情>