一次软件更新如何导致全球电脑崩溃？诸多因素引发连锁反应

腾讯科技

2024-07-20 07:26发布于北京腾讯新闻科技频道官方账号

划重点

1
CrowdStrike安全软件Falcon内核驱动程序定期自动更新错误导致了微软全球性宕机事件。
2
CrowdStrike的安全软件在Windows操作系统底层拥有深度访问权限，发生意外可导致系统崩溃。
3
微软可能并没有对Falcon更新进行独立审核，以提前发现其驱动程序中的漏洞。

腾讯科技讯 7月20日消息，据国外媒体报道，历史上，只有少数几次出现过一段代码瞬间瘫痪全球计算机系统的事件。然而，过去12小时撼动全球互联网和IT基础设施的持续性数字灾难，似乎不是由黑客发布恶意代码引发的，而是由旨在阻止网络攻击的安全软件更新所致。那么一次有缺陷的内核驱动程序更究竟是如何导致全球计算机陷入重启死亡螺旋的，又是如何导致航空旅行、医院、银行等瘫痪的？

周五，两起重大互联网基础设施故障接踵而至，导致从机场、交通系统到银行、医院、酒店及媒体机构等多个领域网络服务全面中断。先是周四晚间微软Azure云平台遭遇大范围服务中断，紧接着周五早晨，网络安全巨头CrowdStrike发布的一则带缺陷软件更新，将大量Windows设备拖入了无休止的重启循环，二者共同编织了一场网络风暴。

微软虽已声明这两起事件间无直接联系，但造成这两起灾难之一的原因已经很清楚了：CrowdStrike安全软件Falcon更新中的错误代码是导致这场灾难的核心因素之一。

01 安全软件定期自动更新惹祸

Falcon本质上是一个杀毒平台，可以在笔记本电脑、服务器和路由器等“端点”上深度访问系统，以检测恶意软件和可能代表威胁的可疑活动。然而，由于CrowdStrike不断向系统中添加检测功能，以抵御新的和不断出现的新威胁，因此Falcon需要获得定期自动更新的许可。然而，这种安排的不利之处在于，这一旨在加强安全和稳定的机制最终可能会破坏安全与稳定。

网络安全公司WithSecure首席研究官米科·海普宁（Mikko Hyppönen）说：“此宕机事件规模空前，全球工作站如此大范围的中断实属历史罕见。”他回顾称，十年前，网络蠕虫与木马肆虐，大范围中断尚属常态；而今，全球性的服务中断则更多聚焦于系统的“服务器端”，归咎于如亚马逊AWS等云服务提供商的问题、互联网链路中断、身份验证故障或DNS服务异常等。

CrowdStrike首席执行官乔治·库尔茨（George Kurtz）周五承认，此次危机源自该公司为Windows平台发布的软件代码中存在的“缺陷”，而Mac与Linux系统没有受到影响。他在官方声明中指出：“问题已被迅速识别、隔离，且修复措施已部署完毕。”他补充说，这一系列问题非网络攻击所致。面对媒体，库尔茨诚挚道歉，并坦言系统全面恢复可能需要一定时间。

安全与IT领域的分析师正深入探究此次大规模宕机的根源，他们普遍认为其与CrowdStrike Falcon软件的“内核驱动程序”更新有关。内核驱动程序是连接应用程序与Windows操作系统核心（即内核）的桥梁，赋予了安全软件在系统最底层运行的特权，这对于在恶意软件入侵前进行拦截至关重要。随着恶意软件技术的不断进化，安全软件也必须持续升级其连接性和控制范围以应对挑战。

然而，Magnet Forensics的检测工程主管马修·苏彻（Matthieu Suiche）警示，这种深度访问权限同样伴随着高风险，即安全软件或其更新可能意外导致整个系统崩溃。他将在操作系统内核级别运行恶意代码检测软件比作“开胸手术”。

在网络安全领域拥有23年经验的资深专家康斯丁·拉伊乌（Costin Raiu），曾在卡巴斯基领导威胁情报团队，他对此次事件表示震惊。他指出，在卡巴斯基，Windows软件的驱动程序更新会经历极其严格的审查和多轮测试，持续数周之久，以确保其稳定性与安全性。因此，一个内核驱动程序的更新能引发如此广泛且严重的全球计算机崩溃，确实出乎意料。

更为重要的是，业内呼吁微软加强对相关代码的审查，并实施加密签名机制，这一举动隐含了微软可能同样未能察觉CrowdStrike Falcon驱动程序中的致命漏洞。拉伊乌说：“尽管我们对驱动程序更新保持高度警觉，但此类事件仍时有发生，令人感到惊讶。一个小小的漏洞足以引发连锁反应，摧毁一切，这正是当前局面的真实写照。”

微软一位发言人承认：“CrowdStrike的更新确实导致了全球范围内众多IT系统的瘫痪，但微软并未直接监督CrowdStrike在其平台上的更新流程。”然而，该发言人并未明确回应微软是否对涉及的内核驱动程序更新进行了独立审查。

拉伊乌进一步指出，CrowdStrike并非个例，安全领域的众多公司，包括卡巴斯基乃至微软自家的Windows Defender，在过去几年中都曾通过驱动程序更新不慎触发了Windows系统的蓝屏死机问题。他解释称：“几乎每一个安全解决方案在其发展历程中都会遭遇这样的挑战时刻。这并非新鲜事，只是影响范围和后果有所不同罢了。”

02 诸多因素引发连锁反应

全球网络安全机构迅速响应，纷纷发布针对此次大规模宕机事件的紧急警报。但在CrowdStrike首席执行官正式表态之前，业界专家已基本达成共识：此次全球性的宕机事件非网络攻击所为。然而，其规模之广仍属罕见，主要归因于CrowdStrike Falcon软件的广泛应用及其对Windows系统的高度控制权。

英国国家网络安全中心首席执行官费利西蒂·奥斯瓦尔德（Felicity Oswald）说：“经国家网络安全中心的评估，这些事件与恶意网络攻击无关。”澳大利亚官方亦持相同立场。

约克大学安全自治研究所的约翰·麦克德米德（John McDermid）教授指出：“CrowdStrike的安全软件普及率极高，广泛部署于众多特定类型的机器上，因此，一旦安全软件出现故障，便有可能同时影响大量计算机的正常运行。”

墨尔本大学计算机与信息系统学院的托比·默里（Toby Murray）教授则强调：“Falcon软件拥有极高的权限，能够深度影响所安装计算机的行为，这也是其影响力如此巨大的原因之一。”

澳大利亚珀斯默多克大学IT学院院长戴夫·帕里教授（Dave Parry）指出：“由于CrowdStrike的广泛影响力，这一事件已演化为全球性现象。众多企业及组织依赖其检测和防御威胁，因此，此次问题波及范围极广，影响深远。这并非网络攻击，而是两款软件间的意外交互所致。”

亚特兰大网络安全公司Errata Security的首席执行官罗伯特·格雷厄姆（Robert Graham）强调：“CrowdStrike等网络安全软件因需深入操作系统核心以抵御攻击，一旦出错，其引发的宕机规模往往更为庞大，甚至可能触发连锁崩溃。这或许是我们所见证过的最为严重的IT故障之一。”

此次灾难性事件不仅凸显了互联网的脆弱性，也揭示了其深度互联带来的潜在风险。众多安全专家表示，他们早已预见并努力预防类似CrowdStrike事件的发生，试图防止防御软件本身因被恶意利用或人为失误而引发的连锁故障。牛津大学教授、前英国国家网络安全中心负责人夏兰·马丁（Ciaran Martin）指出：“这一事件深刻揭示了全球数字生态及核心互联网基础设施的脆弱性！”

03 网络安全领域过度依赖少数公司？

CrowdStrike成立于2011年，为数以万计的客户提供抵御网络攻击的软件，其中包括财富500强中的300家公司。市场研究公司Gartner的数据显示，按收入计算，CrowdStrike占安全软件市场份额的15%，这意味着它的软件被广泛应用于各种系统。

然而，一次常规的软件更新竟能引发如此规模的破坏，仍令资深安全专家拉伊乌感到不解。他推测，Falcon软件的更新可能触发了网络基础设施中其他组件的连锁反应，导致灾难性后果倍增。拉伊乌指出：“CrowdStrike虽规模庞大，但其影响力远不止于此。从机场到关键基础设施，再到医疗机构，不可能每个角落都依赖CrowdStrike。我倾向于认为，这是多重因素交织的结果，一个级联效应，一连串的连锁崩溃。”

伦敦大学学院计算机科学系的助理教授玛丽·瓦塞克（Marie Vasek）也强调全球技术系统对少数几家科技公司软件的过度依赖，特别是微软与CrowdStrike。她说：“问题的核心在于，微软作为行业标准软件，几乎无处不在。而CrowdStrike的漏洞一旦暴露，便迅速蔓延至各个系统，揭示了全球技术生态的脆弱性。”

瓦塞克指出，随着技术网络的日益庞大、复杂与紧密相连，一行简单的软件代码错误便可能触发整个计算机网络的崩溃。她与其他信息技术专家共同强调，鉴于CrowdStrike的数字防护被视为不可或缺，其技术在众多计算机系统中享有优先使用权。因此，一旦CrowdStrike软件出现问题，其访问特权将加剧系统瘫痪的风险。

瓦塞克呼吁微软与CrowdStrike双方深入审查其程序流程，以避免此类广泛的技术故障重演。她说，CrowdStrike应审慎规划软件更新策略，确保安全无误地部署至数百万计算机网络。同时，微软也需加大力度，保障其他公司软件更新不会对Windows系统的稳定性造成负面影响，并探索更有效的机制来验证软件兼容性与稳定性。

海普宁暗示，CrowdStrike可能发布了与测试版本不符的软件，或是在更新过程中发生了文件混淆，亦或是多种因素共同作用的结果。他强调，此类软件必须经过严格的测试流程，这是他们以及CrowdStrike需要共同遵循的原则。他指出，安全软件的更新频率极高，因此必须格外小心，确保每次发布的内容都准确无误，这无疑是一项极具挑战性的任务。

尽管宕机事件的影响尚未完全消散，且部分问题的解决仍在进行中，但问题的特性决定了受影响的个别机器可能必须依赖手动重启，而非自动化流程。CrowdStrike首席执行官库尔茨在采访中称：“部分系统可能需要较长时间方能自动复原。”

CrowdStrike最初提出的“临时解决方案”建议Windows用户以安全模式启动系统，删除特定文件后再行重启。然而，海普宁指出：“截至目前，我们观察到的修复方法意味着每台机器都需要人工检查，鉴于全球范围内数百万台设备受到影响，这一过程可能需要数日之久。”

随着系统管理员们争分夺秒地控制事态发展，如何防范未来类似危机的更深层次问题——即存在性挑战——愈发凸显。网络安全咨询机构Hunter Strategy的研发副总裁杰克·威廉姆斯（Jake Williams）强调：“此次事件或促使人们重新审视并调整现有运营模式。CrowdStrike的案例，无论好坏，都鲜明地揭示了未经IT部门审核便推送更新的不可持续性。”（编译/金鹿）

查看原图 740K