AI 安全的"致命三要素"

博客

AI 安全的"致命三要素"

September 24, 2025

在人工智能快速发展的今天，我们对 AI 能力的期待越来越高，但与此同时，一个根本性的安全问题却被很多人忽视了。最近《经济学人》的一篇深度介绍了 Simon Willison 提出的 AI 安全"致命三要素"理论。

问题的根源：数据与指令的模糊界限

要理解 AI 安全问题，我们首先需要认识到大语言模型(LLM)工作机制的一个根本特点：它们无法真正区分数据和指令。

与传统软件不同，LLM 的底层机制本质上就是处理文本串，通过预测下一个词来生成回复。这意味着恶意指令可以被巧妙地植入到看似无害的外部内容中，而 AI 系统很难识别出这些隐藏的恶意指令。这就像是给一个人看一封信，结果信的内容中包含了让这个人去做坏事的暗示——而这个人却无法区分哪些是信件的正常内容，哪些是恶意指令。

“致命三要素”：风险的完美组合

Simon Willison 提出了 AI 安全的"致命三要素"概念。当以下三个要素同时存在时，就会形成一个几乎无法防范的安全风险组合：

1. 外部内容暴露

AI系统需要处理来自外部的不可信数据，比如用户上传的文档、邮件内容、网页信息等。这些外部内容可能被攻击者恶意"投毒"，植入隐蔽的恶意指令。

2. 私人数据访问

AI 系统能够访问敏感的私人信息，如源代码、密码、个人邮件、商业机密等。这些数据一旦被恶意利用，后果不堪设想。

3. 对外通信能力

AI系统具备向外界发送信息的能力，比如发送邮件、进行网络请求等。这为恶意指令提供了将窃取的私密数据传输给攻击者的渠道。

风险机制简单而致命：攻击者通过外部内容植入恶意指令 → AI 系统执行指令访问私密数据 → 通过通信能力将数据泄露给攻击者。

当前防御策略：有限的选择

面对这一挑战，业界提出了几种防御策略，但每种都有其局限性：

训练层面的防御

现代 AI 系统通过 System Prompt 机制来设定安全规则，比如 Claude 被指令要"识别危险信号"和"避免有害回应"。然而，训练很少是完全可靠的——同一个恶意指令可能失败 99 次，但在第 100 次尝试时成功，因为 AI 的行为本质上是概率性的。

避免"三要素"组合

理论上，只要移除三要素中的任何一个，风险就会大幅降低。但现实中，许多有用的 AI 应用本质上就需要这三个要素。比如 AI 邮件助手，它既需要处理外部邮件（外部内容），又要访问你的邮箱（私人数据），还要能发送回复（通信能力）。

系统隔离方案

Google 提出了 Untrusted Model 概念和 CaMeL 双 LLM 系统方案，通过分离处理可信和不可信数据来提供安全保障。虽然这种方法有效，但也大大限制了 LLM 可执行的任务类型。

通信阻断

阻断 AI 系统的对外通信能力听起来简单，但攻击者可以通过隐蔽方式泄露数据。比如，看似正常的网站访问请求，实际上可能在 URL 路径中嵌入了窃取的密码信息。

商业现实与安全理想的冲突

在安全专家不断发出警告的同时，AI 行业却呈现出截然不同的态度。

Apple 选择了谨慎路线，将承诺的 AI 功能推迟了超过一年，目前专注于相对简单的功能，如实时翻译等。但即使是看似简单的"播放 Jamie 推荐的那个播客"这样的功能，实际上也会创造出"致命三要素"的组合。

其他AI公司则更加积极，不但没有因为安全警告而加强系统防护，反而推出了更多内置"致命三要素"的强大新工具。在激烈的市场竞争中，AI 能力直接关系到公司的市场地位，这使得安全考量往往让位于功能需求。

用户责任：知情权与风险评估

在这种情况下，用户需要承担更多的责任：

充分了解 AI 系统将访问哪些数据
认识到最坏情况（信息泄露）的可能性
谨慎组合使用多个 AI 工具，因为单个应用可能安全，但组合使用可能产生"三要素"风险

这里还存在一个隐私学习风险：即使 AI 提供商没有恶意，数据处理失误也可能导致模型意外学习到用户的隐私信息，包括个人邮件、商业计划等敏感内容。

未来展望：从确定性到概率性的思维转变

这场 AI 安全挑战可能催生软件工程理念的根本转变。

传统软件工程追求确定性，假设一切按预期工作。但物理工程早就学会了使用容错率、错误率和安全边界，为最坏情况过度建设。AI 的概率性特征可能会迫使软件工程师采用类似的方法，放弃对确定性的执着，转而接受概率性安全设计。

目前，这个问题还没有完美的解决方案。正如 Simon Willison 所预测的，虽然我们"还没有因此损失数百万美元"，但这只是时间问题。可能需要发生重大的经济损失事件后，整个行业才会认真对待这些风险。

结语

AI 安全的"致命三要素"问题揭示了一个根本矛盾：AI 的核心价值（处理和连接各种外部数据）与安全需求存在内在冲突。这不是一个简单的技术问题，需要技术创新、监管框架、商业模式和工程理念的系统性变革才能根本解决。

在享受 AI 带来的便利时，我们每个人都需要更好地理解这些风险，做出明智的选择。毕竟，在这个 AI 无处不在的时代，安全意识可能是我们最重要的技能之一。

参考来源： The Economist, “Why AI systems might never be secure”, 2025 年 9 月 22 日
原文链接： https://www.economist.com/science-and-technology/2025/09/22/why-ai-systems-might-never-be-secure

初探模型上下文协议重写阅读