AI 安全的"致命三要素"
在人工智能快速发展的今天,我们对 AI 能力的期待越来越高,但与此同时,一个根本性的安全问题却被很多人忽视了。最近《经济学人》的一篇深度介绍了 Simon Willison 提出的 AI 安全"致命三要素"理论。
问题的根源:数据与指令的模糊界限
要理解 AI 安全问题,我们首先需要认识到大语言模型(LLM)工作机制的一个根本特点:它们无法真正区分数据和指令。
与传统软件不同,LLM 的底层机制本质上就是处理文本串,通过预测下一个词来生成回复。这意味着恶意指令可以被巧妙地植入到看似无害的外部内容中,而 AI 系统很难识别出这些隐藏的恶意指令。这就像是给一个人看一封信,结果信的内容中包含了让这个人去做坏事的暗示——而这个人却无法区分哪些是信件的正常内容,哪些是恶意指令。
“致命三要素”:风险的完美组合
Simon Willison 提出了 AI 安全的"致命三要素"概念。当以下三个要素同时存在时,就会形成一个几乎无法防范的安全风险组合:
1. 外部内容暴露
AI系统需要处理来自外部的不可信数据,比如用户上传的文档、邮件内容、网页信息等。这些外部内容可能被攻击者恶意"投毒",植入隐蔽的恶意指令。
2. 私人数据访问
AI 系统能够访问敏感的私人信息,如源代码、密码、个人邮件、商业机密等。这些数据一旦被恶意利用,后果不堪设想。
3. 对外通信能力
AI系统具备向外界发送信息的能力,比如发送邮件、进行网络请求等。这为恶意指令提供了将窃取的私密数据传输给攻击者的渠道。
风险机制简单而致命:攻击者通过外部内容植入恶意指令 → AI 系统执行指令访问私密数据 → 通过通信能力将数据泄露给攻击者。
当前防御策略:有限的选择
面对这一挑战,业界提出了几种防御策略,但每种都有其局限性:
训练层面的防御
现代 AI 系统通过 System Prompt 机制来设定安全规则,比如 Claude 被指令要"识别危险信号"和"避免有害回应"。然而,训练很少是完全可靠的——同一个恶意指令可能失败 99 次,但在第 100 次尝试时成功,因为 AI 的行为本质上是概率性的。
避免"三要素"组合
理论上,只要移除三要素中的任何一个,风险就会大幅降低。但现实中,许多有用的 AI 应用本质上就需要这三个要素。比如 AI 邮件助手,它既需要处理外部邮件(外部内容),又要访问你的邮箱(私人数据),还要能发送回复(通信能力)。
系统隔离方案
Google 提出了 Untrusted Model 概念和 CaMeL 双 LLM 系统方案,通过分离处理可信和不可信数据来提供安全保障。虽然这种方法有效,但也大大限制了 LLM 可执行的任务类型。
通信阻断
阻断 AI 系统的对外通信能力听起来简单,但攻击者可以通过隐蔽方式泄露数据。比如,看似正常的网站访问请求,实际上可能在 URL 路径中嵌入了窃取的密码信息。
商业现实与安全理想的冲突
在安全专家不断发出警告的同时,AI 行业却呈现出截然不同的态度。
Apple 选择了谨慎路线,将承诺的 AI 功能推迟了超过一年,目前专注于相对简单的功能,如实时翻译等。但即使是看似简单的"播放 Jamie 推荐的那个播客"这样的功能,实际上也会创造出"致命三要素"的组合。
其他AI公司则更加积极,不但没有因为安全警告而加强系统防护,反而推出了更多内置"致命三要素"的强大新工具。在激烈的市场竞争中,AI 能力直接关系到公司的市场地位,这使得安全考量往往让位于功能需求。
用户责任:知情权与风险评估
在这种情况下,用户需要承担更多的责任:
- 充分了解 AI 系统将访问哪些数据
- 认识到最坏情况(信息泄露)的可能性
- 谨慎组合使用多个 AI 工具,因为单个应用可能安全,但组合使用可能产生"三要素"风险
这里还存在一个隐私学习风险:即使 AI 提供商没有恶意,数据处理失误也可能导致模型意外学习到用户的隐私信息,包括个人邮件、商业计划等敏感内容。
未来展望:从确定性到概率性的思维转变
这场 AI 安全挑战可能催生软件工程理念的根本转变。
传统软件工程追求确定性,假设一切按预期工作。但物理工程早就学会了使用容错率、错误率和安全边界,为最坏情况过度建设。AI 的概率性特征可能会迫使软件工程师采用类似的方法,放弃对确定性的执着,转而接受概率性安全设计。
目前,这个问题还没有完美的解决方案。正如 Simon Willison 所预测的,虽然我们"还没有因此损失数百万美元",但这只是时间问题。可能需要发生重大的经济损失事件后,整个行业才会认真对待这些风险。
结语
AI 安全的"致命三要素"问题揭示了一个根本矛盾:AI 的核心价值(处理和连接各种外部数据)与安全需求存在内在冲突。这不是一个简单的技术问题,需要技术创新、监管框架、商业模式和工程理念的系统性变革才能根本解决。
在享受 AI 带来的便利时,我们每个人都需要更好地理解这些风险,做出明智的选择。毕竟,在这个 AI 无处不在的时代,安全意识可能是我们最重要的技能之一。
参考来源: The Economist, “Why AI systems might never be secure”, 2025 年 9 月 22 日
原文链接: https://www.economist.com/science-and-technology/2025/09/22/why-ai-systems-might-never-be-secure