在上个月由于配置错误导致Google Cloud出现“灾难性故障”后,谷歌云平台(GCP)遭遇了另一个多小时的问题。这一次,谷歌并不认为这是一次停电,即使它导致客户的延迟时间激增。
谷歌表示周二对谷歌云网络和负载平衡的“中断”是由于物理损坏的光纤束服务于南卡罗来纳州的us-east1数据中心。
这些问题首先发布在太平洋时间10:25的Google状态页面上,该页面上有几个更新,详细说明了其响应和解释中断原因的原因。
谷歌通过“选择性地重新路由一些流量来确保客户的服务将继续可靠地运行直到受影响的光纤路径得到修复”来减轻损坏的光纤。
尽管采取了这些措施,云提供商仍警告称,在修复损坏的光纤之前,一些客户仍会看到比通常的延迟更高的延迟,预计在未来24小时内会完成,并将完全解决延迟问题。
声称使用黑客新闻手柄'boulos'为谷歌云工作的个人突然出现在该网站的一个帖子中,以纠正网络问题意味着该地区“失败”的评论 - 尽管boulos承认“网络延迟飙升外部连接不好“。
另一位黑客新闻用户'mrweasel'质疑该地区在技术上没有倒闭的解释。
“正如我的老板之一所说的那样:我不关心网站/服务在技术上运行,如果客户无法访问它,那么就是'DOWN',”mrweasel写道。
另一位用户表示,在危机期间,mrweasel的老板在言辞上“挑剔”并牺牲了“准确性和准确理解”。
Mrweasel反驳说这是准确的:“从商业角度来看,该网站已经失效。挑剔告诉他:不,事实上,客户根本无法使用它。”
Bolous解释说,由于声称该地区倒闭的评论者之间存在“混淆”,他们进行了干预。
“在停电期间对于通信来说是一个棘手的时期,所以短暂的修正是最好的,直到可以完成完整的死后,”boulos写道。
声称为AWS工作的'david-cako'说道:“我为AWS工作。在与客户分享信息时,通常需要取得平衡。我认为这适用于大多数公司,这就是为什么它直到验尸后才能完全改进消息传递。“
与Google一样,流行的CDN提供商Cloudflare在过去一周遭遇了两次中断,并做了大量解释。第一个被归咎于Verizon互联网路由错误导致“灾难性的级联故障”。
第二个是星期二,是由于内部“糟糕的软件部署”导致其设备出现前所未有的CPU峰值。停电只持续了30分钟,但影响了Cloudflare在全球运营的每个数据中心。
依赖Cloudflare的网站的访问者遇到了502“错误的网关”错误消息。
Cloudflare首席技术官John Graham-Cumming 后来透露,糟糕的软件部署实际上是“Cloudflare Web应用程序防火墙(WAF)中的一个错误配置规则”,用于常规部署新的Cloudflare WAF托管规则,旨在加强对JavaScript攻击的防御。
“不幸的是,其中一条规则包含一个正则表达式,导致CPU在我们全球的机器上飙升至100%。这100%的CPU峰值导致客户看到的502错误。最差的流量下降了82%,”格雷厄姆写道-Cumming。
他承认该公司的测试程序“不足”,并表示他们目前正在接受审查。广泛的影响是因为新的WAF规则“一次全球部署”。
7月4日更新:谷歌称太平洋时间7月3日星期三7:35谷歌云网络和负载平衡问题得到解决,这意味着中断持续了大约21个小时。
该公司证实,它修复了受损的纤维束并将us-east1区域恢复到正常路线。它还将对事件进行内部审查并进行适当的改进。