AI 安全的"致命三要素"

AI 安全的"致命三要素"

September 24, 2025

在人工智能快速发展的今天,我们对 AI 能力的期待越来越高,但与此同时,一个根本性的安全问题却被很多人忽视了。最近《经济学人》的一篇深度介绍了 Simon Willison 提出的 AI 安全"致命三要素"理论。

问题的根源:数据与指令的模糊界限

要理解 AI 安全问题,我们首先需要认识到大语言模型(LLM)工作机制的一个根本特点:它们无法真正区分数据和指令

与传统软件不同,LLM 的底层机制本质上就是处理文本串,通过预测下一个词来生成回复。这意味着恶意指令可以被巧妙地植入到看似无害的外部内容中,而 AI 系统很难识别出这些隐藏的恶意指令。这就像是给一个人看一封信,结果信的内容中包含了让这个人去做坏事的暗示——而这个人却无法区分哪些是信件的正常内容,哪些是恶意指令。

“致命三要素”:风险的完美组合

Simon Willison 提出了 AI 安全的"致命三要素"概念。当以下三个要素同时存在时,就会形成一个几乎无法防范的安全风险组合:

1. 外部内容暴露

AI系统需要处理来自外部的不可信数据,比如用户上传的文档、邮件内容、网页信息等。这些外部内容可能被攻击者恶意"投毒",植入隐蔽的恶意指令。

2. 私人数据访问

AI 系统能够访问敏感的私人信息,如源代码、密码、个人邮件、商业机密等。这些数据一旦被恶意利用,后果不堪设想。

3. 对外通信能力

AI系统具备向外界发送信息的能力,比如发送邮件、进行网络请求等。这为恶意指令提供了将窃取的私密数据传输给攻击者的渠道。

风险机制简单而致命:攻击者通过外部内容植入恶意指令 → AI 系统执行指令访问私密数据 → 通过通信能力将数据泄露给攻击者。

当前防御策略:有限的选择

面对这一挑战,业界提出了几种防御策略,但每种都有其局限性:

训练层面的防御

现代 AI 系统通过 System Prompt 机制来设定安全规则,比如 Claude 被指令要"识别危险信号"和"避免有害回应"。然而,训练很少是完全可靠的——同一个恶意指令可能失败 99 次,但在第 100 次尝试时成功,因为 AI 的行为本质上是概率性的。

避免"三要素"组合

理论上,只要移除三要素中的任何一个,风险就会大幅降低。但现实中,许多有用的 AI 应用本质上就需要这三个要素。比如 AI 邮件助手,它既需要处理外部邮件(外部内容),又要访问你的邮箱(私人数据),还要能发送回复(通信能力)。

系统隔离方案

Google 提出了 Untrusted Model 概念和 CaMeL 双 LLM 系统方案,通过分离处理可信和不可信数据来提供安全保障。虽然这种方法有效,但也大大限制了 LLM 可执行的任务类型。

通信阻断

阻断 AI 系统的对外通信能力听起来简单,但攻击者可以通过隐蔽方式泄露数据。比如,看似正常的网站访问请求,实际上可能在 URL 路径中嵌入了窃取的密码信息。

商业现实与安全理想的冲突

在安全专家不断发出警告的同时,AI 行业却呈现出截然不同的态度。

Apple 选择了谨慎路线,将承诺的 AI 功能推迟了超过一年,目前专注于相对简单的功能,如实时翻译等。但即使是看似简单的"播放 Jamie 推荐的那个播客"这样的功能,实际上也会创造出"致命三要素"的组合。

其他AI公司则更加积极,不但没有因为安全警告而加强系统防护,反而推出了更多内置"致命三要素"的强大新工具。在激烈的市场竞争中,AI 能力直接关系到公司的市场地位,这使得安全考量往往让位于功能需求。

用户责任:知情权与风险评估

在这种情况下,用户需要承担更多的责任:

  • 充分了解 AI 系统将访问哪些数据
  • 认识到最坏情况(信息泄露)的可能性
  • 谨慎组合使用多个 AI 工具,因为单个应用可能安全,但组合使用可能产生"三要素"风险

这里还存在一个隐私学习风险:即使 AI 提供商没有恶意,数据处理失误也可能导致模型意外学习到用户的隐私信息,包括个人邮件、商业计划等敏感内容。

未来展望:从确定性到概率性的思维转变

这场 AI 安全挑战可能催生软件工程理念的根本转变。

传统软件工程追求确定性,假设一切按预期工作。但物理工程早就学会了使用容错率、错误率和安全边界,为最坏情况过度建设。AI 的概率性特征可能会迫使软件工程师采用类似的方法,放弃对确定性的执着,转而接受概率性安全设计。

目前,这个问题还没有完美的解决方案。正如 Simon Willison 所预测的,虽然我们"还没有因此损失数百万美元",但这只是时间问题。可能需要发生重大的经济损失事件后,整个行业才会认真对待这些风险。

结语

AI 安全的"致命三要素"问题揭示了一个根本矛盾:AI 的核心价值(处理和连接各种外部数据)与安全需求存在内在冲突。这不是一个简单的技术问题,需要技术创新、监管框架、商业模式和工程理念的系统性变革才能根本解决。

在享受 AI 带来的便利时,我们每个人都需要更好地理解这些风险,做出明智的选择。毕竟,在这个 AI 无处不在的时代,安全意识可能是我们最重要的技能之一。


参考来源: The Economist, “Why AI systems might never be secure”, 2025 年 9 月 22 日
原文链接: https://www.economist.com/science-and-technology/2025/09/22/why-ai-systems-might-never-be-secure