美国互联网服务提供商CenturyLink周日遭受重大技术故障,原因是其一个数据中心的配置错误在整个互联网上造成了严重破坏。
由于中断的技术性质(包括防火墙和BGP路由),该错误从CenturyLink的网络向外传播,并且还影响了其他Internet服务提供商,最终导致更多其他公司的连接问题。
由于CenturyLink中断,今天提供服务的科技巨头的名单包括亚马逊,Twitter,微软(Xbox Live),EA,暴雪,Steam,Discord,Reddit,Hulu,Duo Security,Imperva,NameCheap,OpenDNS等知名公司, 还有很多。
今天还受到严重影响的Cloudflare表示,CenturyLink的向外传播问题导致 全球互联网流量下降3.5%,这将成为有史以来最大的互联网中断之一。
根本原因:Flowspec规则配置错误
根据 CenturyLink状态页,此问题起源于加拿大安大略省附近城市密西沙加的CenturyLink数据中心。
电信公司说,事件的根本原因是错误的Flowspec公告。
Flowspec是BGP协议的扩展,允许公司使用BGP路由在其网络中分发防火墙规则。在处理诸如BGP劫持或DDoS攻击等安全事件时,通常使用Flowspec公告,因为它使公司可以更改整个网络以在几秒钟内做出反应并缓解攻击。
但是,今天,CenturyLink表示,其密西沙加数据中心发出了错误的Flowspec公告,这实际上阻止了该公司的BGP路由扎根。
从远处观察到该事件的Cloudflare相信CenturyLink有效,但通过宣布一组全新的BGP路由然后通过错误配置的Flowspec规则意外删除所有路由,将整个网络陷入了一个循环。
BGP路由是保持互联网畅通的粘合剂。它们是互联网公司之间相互传递的一种信息。BGP路由告诉每个互联网提供商其网络上哪些IP地址块可用。
但是,由于CenturyLink错误的Flowspec命令导致其网络内的某些路由器瘫痪,其中一些路由器还开始宣告到其他“第1层”相邻互联网服务的BGP路由不正确。
反过来,这以类似多米诺骨牌的作用使其他网络瘫痪。
停电需要七个小时才能解决
CenturyLink通过采取罕见的步骤告诉所有其他第1层互联网提供商取消对等网络,而忽略了来自其网络的任何流量,从而解决了该问题。公司很少做出此类决定,因为这会导致其所有客户的全部连接中断。
哇,那一定是一段时间以来最大的Internet中断。. @CenturyLink 要求其他“ tier1”去对等。这表明它一定很糟糕,无法恢复。
客户下探他们对等与3356,但路线不被撤销.. #ouch
-Andree Toonk(@atoonk)2020年8月30日
应L3 / CTL的要求,我们禁用了所有对等会话,直到情况得到控制为止。很高兴看到整个行业的合作,这对于AS3356来说无疑是艰难的时期。https://t.co/lbr38IHhyi
-Johan Gustawsson(@Gustawsson)2020年8月30日
该公司表示,总而言之,CenturyLink必须重置所有设备,并从干净的BGP路由表开始,该过程花费了将近七个小时的时间,从大约12:13 UTC到18:58 UTC。
Cloudflare的联合创始人兼首席执行官Matthew Prince在对中断进行分析时说:“这是一次重大的全球Internet中断。”
上一条: 威瑞信在.COM和.NET域名中提出快速暂停程序(URS)
下一条: 科技企业的10个流行域名扩展