网络安全巨头 CrowdStrike 表示,其最近的软件更新导致了大规模的全球技术中断,影响了全球约 850 万台微软设备。
尽管受影响的Windows电脑仍不到使用总量的1%,但这一事件已对多个重要领域造成了重大影响,显示了现代数字基础设施的深远影响。
微软在一篇博文中披露了这一问题的广泛程度: "我们目前估计,CrowdStrike 的更新影响了 850 万台 Windows 设备,不到所有 Windows 机器的百分之一"。尽管这一数字仅占 Windows 设备总数的一小部分,但影响范围却非常广泛,凸显了 CrowdStrike 在网络安全领域的领先地位。
此次故障的影响波及多个行业:
1. 航空业: 数以千计的航班被取消,导致乘客滞留或面临大面积延误。达美航空公司是受影响最严重的航空公司之一,截至周六上午,该公司报告取消了 600 多个航班,预计还会有更多航班取消。
2. 广播: 多家广播公司被迫停播,媒体服务中断。
医疗保健和银行业务: 客户发现自己无法访问关键服务,包括医疗保健和银行系统。
3. 政府和企业部门: 财富》500 强企业和美国网络安全与基础设施安全局等重要政府机构有一半以上都依赖 CrowdStrike 的软件,因此此次故障的影响波及公共和私营部门。
该公司发现,无法访问的原因是 CrowdStrike 为其广泛使用的猎鹰传感器软件打了一个补丁。这一更新旨在提高网络安全性,防范新的威胁。然而,更新文件代码中的错误导致许多客户在使用微软 Windows 时出现崩溃。
包括安全记分卡公司 CSO Steve Cobb 在内的安全专家指出,这个文件一定是找到了一种方法,通过了用于测试的任何审查或沙箱程序。
专门研究操作系统威胁的安全研究员帕特里克-沃德尔(Patrick Wardle)说,问题在于 "一个包含配置信息或签名的文件"。这对于识别某些类型的恶意代码或恶意软件非常重要。
一些关于此次故障的公开图片包括臭名昭著的 "蓝屏死机"--受影响计算机上显示的错误信息,这些信息在社交媒体平台上广为传播。
CrowdStrike 已经提供了修复受此次事件破坏的系统的信息。不过,恢复系统所需的措施非常庞大,而且任务艰巨,因为必须手动清除每个受影响系统中的缺陷代码。
微软正在参与恢复过程。这家软件巨头正在与 CrowdStrike 合作,为微软的 Azure 基础架构创建一个加速修复程序。此外,微软还联系了亚马逊网络服务和谷歌云平台等大型软件提供商,向他们通报了自己的观察结果和对行业的影响。
这一事件严酷地提醒我们,广泛使用的网络安全软件存在潜在风险,亟需严格的测试协议。Huntress 实验室首席安全研究员约翰-哈蒙德(John Hammond)强调了更加谨慎地进行软件更新的重要性: "理想的情况是,先在有限的用户群中推广。这是一种更安全的方法,可以避免像这样的大混乱。
这次故障还凸显了频繁的安全更新与彻底测试之间的微妙平衡。正如帕特里克-沃德尔指出的那样:"安全产品更新签名是很常见的事情,比如每天更新一次......因为它们在持续监控新的恶意软件,因为它们希望确保客户免受最新威胁的侵害。然而,在这种情况下,这种频率可能会导致测试不充分。
这并不是我们看到的第一例高知名度网络安全公司的案例。2010 年,McAfee 就曾因杀毒软件更新漏洞关闭了数十万台机器。但是,随着越来越多的企业开始依赖网络安全软件,CrowdStrike 的宕机事件在全球范围内造成的影响表明,一家公司在各行各业留下的足迹有多大。
对于目前正在努力重建系统的所有受影响企业来说,这次事件提醒我们,数字生态系统中的一切都可能受到多么严密的控制。与此同时,这也是对严格测试政策的一次考验,重塑了缓慢提供关键更新的方法,并建立了一旦再次发生便可实施的故障安全计划。