Windows蓝屏死机，因CrowdStrike更新存在缺陷，有用户重启15次才成功

DeepTech深科技

2024-07-20 18:42发布于北京DeepTech深科技官方账号

全文2174字，阅读约需7分钟，帮我划重点

划重点

01一场由网络安全公司CrowdStrike发布的有缺陷软件更新导致的全球IT系统崩溃，影响了机场、火车系统、银行等多个领域。

02该更新旨在用于CrowdStrike的Falcon软件，但并未按预期工作，导致运行Windows系统的计算机崩溃并无法成功重启。

03由于此次问题，微软365服务出现异常，云端储存服务OneDrive和邮件服务Outlook都出现了宕机。

04然而，微软和CrowdStrike已撤回此次更新，并发布解决方法，包括重启计算机或使用备份恢复系统。

05专家表示，此次事件反映了IT基础设施的脆弱性，呼吁改变现有的运行模式以防止类似危机再次发生。

以上内容由腾讯混元大模型生成，仅供参考

在过去的 48 小时里，发生了一场震撼全球互联网和 IT 基础设施的数字灾难，全世界的机场、火车系统、银行、医疗机构、酒店、电视台纷纷受到了影响，许多人的生活被打乱，造成的经济损失更是难以估量。

表面上，这场大规模 IT 系统崩溃体现在 Windows 电脑的“蓝屏死机”上。大量 Windows 用户在社交媒体上发布了他们遭遇的蓝屏。

有在机场信息屏上的：

（来源：X）

有在室外电子广告牌上的：

（来源：X）

还有在赛车场公告牌上的：

（来源：X）

甚至连医疗器械也受到了影响：

（来源：X）

然而，Windows 系统和微软并不是这场崩溃的主角，真正的“元凶”是一家名为 CrowdStrike 的安全公司，它发布了一个有缺陷的软件（驱动）更新，导致 Windows 电脑陷入了灾难性的重启循环。

在系统崩溃出现不久后，CrowdStrike 的 CEO 乔治·库尔茨（George Kurtz）就在 X 平台上强调，这不是一起安全事件或网络攻击，而且“问题已经被识别、隔离并部署了修复”。但并非所有组织都能迅速采取正确的行动。

受此影响，微软 365 服务出现异常，云端储存服务 OneDrive 和邮件服务 Outlook 都出现了宕机。

美国达美航空公司和美国联合航空公司的航班被迫停飞，英国希思罗机场、荷兰阿姆斯特丹国际机场和新加坡樟宜机场等重要机场的 IT 系统崩溃，导致值机失败、航班延误和停飞，大量乘客被迫滞留在机场。英国和马来西亚的铁路系统也遭遇了类似的问题。

同时，欧洲、澳大利亚和印度的许多银行客户无法访问在线银行，也不能完成转账等交易。

英国的医生办公室和医院失去了对患者记录和预约系统的访问权限。美国的 911 应急服务也遭遇了技术故障，许多呼叫中心无法正常工作。

在历史上，极少有一个软件（甚至是几行代码）能在短时间内破坏全球的计算机系统，我们有所耳闻的主要是蠕虫和木马攻击，比如 2003 年的 SQL Slammer 蠕虫攻击和 2017 年的勒索软件 WannaCry 传播。

最近几年的全球大宕机主要发生在 IT 系统的“服务器端”，例如云服务提供商出现问题、互联网电缆中断或分布式拒绝服务攻击。

滑稽的是，这次的混乱并非由黑客传播的恶意软件引发的，而是由旨在阻止黑客攻击的软件引发的。

一张张荒诞而又带点艺术色彩的照片仿佛在说：“看吧，这个世界就是一个巨大的草台班子。”

问题的起因

大崩溃的根本原因是网络安全公司 CrowdStrike 为 Windows 设备发布的一个更新中存在 bug。

该更新旨在用于 CrowdStrike 的 Falcon 软件，这是一款“端点检测和响应（endpoint detection and response）”软件，旨在保护公司的计算机系统免受网络攻击和恶意软件的侵害。

此次更新属于“内核驱动程序”更新，但它并没有按预期工作，而是导致运行 Windows 系统的计算机崩溃并无法成功重启。

运行 Windows 的家用电脑不太可能受到影响，因为 CrowdStrike 主要由大型组织使用。

独立网络安全研究员兼顾问卢卡斯·奥利尼克（Lukasz Olejnik）表示，CrowdStrike 软件在低级操作系统层工作，在这里出现任何问题都可能会使操作系统无法启动。

他指出，并非所有运行 Windows 的计算机都会受到影响。如果一台机器在 CrowdStrike 推送更新时处于关机状态，它就不会自动更新。

如何修复

当然，在发现问题后，CrowdStrike 和微软已经撤回了此次更新，目前也发布了一些解决方法。

令人啼笑皆非的是，官方最早发布的解决方法竟然是大名鼎鼎的“重启试试”。

微软 Azure 云服务页面指出，一些客户反馈称，他们通过多次重启虚拟机成功解决了系统崩溃。有的客户称其重启了 15 次才成功。

图 | 微软最早给出的“重启试试”解决方案（来源：微软）

究其原因，似乎是重启可以让受影响的设备有更多机会尝试获取 CrowdStrike 的未损坏更新。如果重启无法解决问题，微软的建议是使用备份，将系统恢复到 CrowdStrike 驱动更新之前。

如果不想或无法恢复备份，那就只能由 IT 管理员开启电脑的安全模式，手动删除受影响的驱动（位于 C:\Windows\System32\drivers\CrowdStrike 目录下的 C-00000291*.sys 文件），然后让机器正常启动并获取未损坏的驱动。

对于管理成百上千台电脑和服务器的大公司来说，IT 部门无疑面临着巨大的工作量，完全修复可能需要几天的时间，许多 IT 管理员的周末不得不用来加班。

不过，人类的悲喜并不相通。因为电脑蓝屏，很多打工人的周末从周五就“开始”了。

此次全球宕机潮反映出了 IT 基础设施是多么的脆弱：如果这是一种勒索软件而不是一次意外的更新 bug，情况将比现在糟糕多了。

在 IT 管理员争先恐后地修复问题、降低影响时，如何防止类似危机再次发生的问题仍没有答案。

“人们可能会现在要求改变现在这种运行模式。”网络安全咨询公司 Hunter Strategy 的研发副总裁杰克·威廉姆斯（Jake Williams）表示，“CrowdStrike 刚刚展示了在没有 IT 介入的情况下，为何推送更新是不可持续的原因。”

参考资料：

https://www.technologyreview.com/2024/07/19/1095161/fix-windows-pc-microsoft-crowdstrike-outage/

https://arstechnica.com/information-technology/2024/07/crowdstrike-fixes-start-at-reboot-up-to-15-times-and-get-more-complex-from-there/

https://www.theverge.com/24202037/microsoft-crowdstrike-outage-blue-screen-error-photos

排版：朵克斯

查看原图 248K