任何时候发生网络服务中断,都会对全球业务造成极大的影响和破坏,而且还会导致收入和声誉的重大损失。尽管应用程序交付依赖于许多网络服务提供商(ISP),但它也越来越依赖于面向网络的服务的大型且复杂的生态系统,例如CDN、DNS、DDoS缓解和公共云。这些服务共同为用户提供卓越的数字体验,即使是短暂的中断也会产生重大影响。
同时,企业越来越依赖Internet传输来连接其站点并访问业务关键的应用程序和服务。现在应用程序完全托管在私有数据中心和办公地点,那些主要通过MPLS进行连接的日子已经一去不复返了。随着企业逐渐采用SD-WAN技术,互联网正在取代/补充MPLS等服务。因此,Internet现在实际上是企业的骨干网,作为一种“尽力而为”的传输方式,可能会对企业产生重大且无法预见的后果。
在过去的一年中,几次大规模的宕机对全球互联网产生了连锁反应,对企业和消费者都产生了不同程度的影响。我们汇总了一些比较严重的宕机事件,以下是按时间顺序排列的2019年具破坏性的宕机事件:
事件1:2019年5月13日,中国电信宕机事件揭示了其全球影响力
虽然这不是2019年具破坏性的宕机事件,但从这次事件也可以看出中国电信的业务范围远远超出了中国大陆。2019年5月13日,中国电信经历了一次重大故障,持续了将近5小时,后续又持续几个小时。中国电信在其主干网上遭受了严重的数据包丢失,主要是中国大陆的网络基础设施受到较大影响,但是也波及了中国电信的新加坡和美国包括洛杉矶等多个节点,全世界有一百多种服务受到干扰。
此次整个长时间持续中断过程中,路由转发到受到影响故障节点的流量全都被丢弃了,也就是说部分在中国国内和国外的用户,使用浏览器或者应用程序访问的大量国外网站均出现了中断。中国的用户尝试访问架设在国外的网站会受到影响,与此同时,国外的用户试图访问中国国内网站也受到影响。
同时这次宕机事件也让美国的网站服务受到了影响,如苹果,亚马逊,微软,Slack,Workday,SAP等等网站服务,下图展示了受到网络故障波以及影响的部分网站和服务。
此次事件说明了中国对全球互联网的一些影响力,同时中国电信网络提供商维护着全球因特网的互联,和全球很多地方的网络提供商保持联系。
事件2:2019年6月2日-“宕机之夏”始于Google Cloud
在2019年6月2日,Google Cloud Platform发生了严重的网络中断,影响了美国西部、美国东部和美国中部地区的托管服务。此次宕机也影响了Google自己的应用程序,包括GSuite和YouTube。该宕机持续了四个多小时,几天后,Google就此事件发布了官方报告。ThousandEyes 的优势在于能够实时查看宕机情况,并在更详细的信息公开之前有效地揭示宕机的特点和规模。
大约从美国东部时间上午9点开始,相关工作人员观察到试图连接到GCP us-west2-a中托管服务的全局监视器的数据包丢失率达到100%。在GCP美国东部几个地区(包括us-east4-c)托管的站点也看到了类似的损失。
事实证明,部分Google网络完全不可用是由于Google的网络控制平面意外脱机导致的。谷歌后来透露,在宕机期间,一套自动策略确定了哪些服务可以在未受影响的网络中部分访问或不能访问。
从云服务中断中获得的最重要的教训是,确保任何云架构都具有足够的弹性措施(无论是在多区域基础上还是在多云基础上),以防止将来再次发生中断,这一点至关重要。可以说即使在云中,IT基础架构和服务有时也会出现中断。
事件3:6月24日-Cloudflare用户沦为路由灾难的受害者
就在WhatsApp用户遭遇大规模路由泄漏事件的几周后,互联网又发生了另一起与路由相关的事件,并且造成的破坏要大得多。
Cloudflare是一家CDN服务提供商,2019年6月24日,在将近两个小时的时间里,一个重大的BGP路由错误对试图访问Cloudflare服务的用户造成了严重影响,包括游戏平台Discord和Nintendo Life。经分析发现,该BGP路由泄漏来自多方因素。DQE是一家传输提供商,是此次泄漏的源头,该泄漏是通过DQE和Verizon的客户Allegheny Technologies传播的。不幸的是,Verizon进一步传播了路由泄漏,从而扩大了影响。
此次重大宕机影响了Cloudflare约15%的全球流量,并影响了Discord、Facebook和Reddit等服务,持续时间约两小时。路由泄漏也影响了对一些AWS服务的访问。
该事件的根本原因可归因于DQE使用的BGP优化软件,该软件创建了到Cloudflare服务的路由,而这些路由只能在DQE的内部网络中使用。当这些路线意外地泄露给其中一位客户时,混乱就随之而来了。
这次事件再次提醒我们,在以云为中心的世界中,企业要想成功地向用户提供服务,就必须对网络具有可见性。
事件4:7月4日-Apple服务在7月4日受到影响
2019年7月4日,连接到Apple网站及其部分服务(例如Apple Pay)的用户经历了长达90多分钟的严重丢包。这个问题导致许多用户无法成功连接到Apple。该数据包丢失是由BGP路由震荡引起的。当一个路由公告被快速连续地(通常是反复)发出和撤回时,BGP路由就会出现问题。
此次事件苹果在早期成功阻止了事情的发酵。
从这次事件中得到的教训是,宕机不会凭空发生,有时仅根据其时机和环境来判断,即使是严重的中断也可能会被忽视(或者反过来,明明不严重却引起严重的骚动)。
事件5:9月6日-DDoS攻击者瞄准维基百科
由于大规模持续的分布式拒绝服务(DDoS)攻击,2019年9月6日,世界各地对维基百科网站的访问中断了将近9个小时。DDoS攻击可以击垮目标网络的基础设施,并在服务提供商网络内部造成拥塞,从而导致数据包丢失。
在事件过程中,世界各地的HTTP服务器可用性显著下降,并且HTTP响应时间急剧增加。许多地区的用户无法建立Internet连接,无法与维基百科服务器进行持续通信,此次攻击造成了高达60%的数据包丢失,这进一步阻止了对维基百科网站的访问。
虽然DDoS事件在Internet上时有发生,但组织应该主动了解这些事件的范围和影响,并验证DDoS缓解措施是否有效。