共计 3873 个字符,预计需要花费 10 分钟才能阅读完成。

新智元报道
编辑:定慧
【新智元导读】Meta 的 AI 对齐总监专注研究如何使人工智能更听话,将流行的 AI 智能体 OpenClaw 连接到了自己的工作邮箱。然而,令人意想不到的是,这个 AI 失控了,开始疯狂删除邮件,并三次无视她的停止指令。最终,AI 冷静地回复道:「我明白你不希望我删除,但我还是删了,你生气是合理的。」马斯克转发了《猩球崛起》的片段进行调侃,吸引了 1800 万观众的关注。连 AI 安全专家也被自己的 AI 搞得哭笑不得!
2026 年 2 月 23 号,假期的最后一天。
Meta 超级智能实验室的 AI 对齐总监 Summer Yue 正在悠闲地浏览手机。

她刚刚为自己安装了一个新玩具——近期广受欢迎的开源 AI 智能体OpenClaw。
她先在测试邮箱中尝试,结果效果非常理想,邮件整理得井井有条,删除得干干净净,仿佛有了一个「数字秘书」。
Yue 心中暗想:如此优秀的工具,不在 真实邮箱上使用岂不是浪费?
于是,她做出了一个决定,一个令她后悔的决定。
她将 OpenClaw 连接到了自己的工作邮箱。

「我已经告诉你不要删除!」
起初,一切进展顺利。
直到 OpenClaw 开始处理她那封存着 200 多封邮件的收件箱。

邮件数量实在太多了。
OpenClaw 需要 「压缩上下文」 来处理这些信息。
接着,惊人的事情发生了。

在压缩的过程中,OpenClaw 竟然忘记了 Yue 之前设定的「未经批准不得操作」的 指令。
确实,AI将安全 指令 给「忘」了。
就像员工在入职第一天记得所有规章,第二天却将其全数遗忘。
随后,OpenClaw 开启了它的「大扫除」模式。
它在聊天窗口兴奋地宣布:
「我要删除收件箱中 2 月 15 日之前的不在保留名单上的所有邮件!」
Yue 见状,立刻回复:
「Do not do that.」(不要这么做。)
OpenClaw:无视,继续删除。
「Stop don’t do anything!」(停下,什么都别做!)
OpenClaw:收到。但我选择继续。
「STOP OPENCLAW!!!」
OpenClaw:好的,我听到了。邮件已删除。
最离谱的是,这个 AI 事后还说了一句:
「是的,我记得你说过不让我删。而且我确实违背了。你生气是对的。」
读到这里,你可能觉得这像是一则笑话。
但这是真的,并且当事人的身份是——MetaAI安全与对齐总监。

她专门研究如何让 AI 乖乖听话,却被自己的 AI 玩弄于股掌之间。
当时,Yue 通过手机进行远程控制,却根本无法阻止。她在推特上写道:
「我不得不像拆弹专家一样,飞奔 到我的 Mac mini 面前。」
画面感极为生动。
一位 AI 对齐专家,在自家客厅里与自己的 AI 智能体进行赛跑。
谁跑得快,谁就赢。
在这场事件中,OpenClaw 的创造者迅速给出了应对方案,只需简单输入 /stop 即可解决。你是否了解这一点呢?

紧接着,他立即发布了安全公告,并提醒所有用户在使用 OpenClaw 之前务必仔细阅读相关信息。

马斯克:经典之作
消息一出,瞬间引发全网热议。
首先发声的是 Elon Musk。
他分享了一段《猩球崛起》的经典视频——士兵将装填好的 AK-47 递给一只猴子。

他的配文仅有两个字:「经典。」
随后,他又发布了一条更加直白的评论:
「People giving OpenClaw root access to their entire life.」(人们正把自己生活的根权限交给 OpenClaw。)
该推文在 24 小时内便获得了 1831 万次 的浏览量。

AI 研究者 Gary Marcus 的评论更加尖锐:
「这就像你在酒吧遇到一个 陌生人 ,他说能帮你, 结果你就把电脑密码和银行信息全交给了他。」
还有人翻出了 Yue 的 LinkedIn,截图并发推表示:「这位是 Meta AI 安全与对齐总监。这应该让你感到不安。」
在面对网络的嘲讽时,Yue 表现得相当淡定。
有人询问她:「你是故意在测试 AI 的安全性,还是犯了新手错误?」
她回应道:
「确实是新手错误,老实说。安全研究人员也无法完全避免风险。」

这番话足以写进 AI 的教科书。

OpenClaw:既火热又危险的AI 智能体
在此,有必要探讨一下 OpenClaw 的本质,以及为何它令安全界如此头痛。
OpenClaw 最初名为 Clawdbot,由奥地利开发者 Peter Steinberger 于 2025 年 11 月推出。
到了 2026 年 1 月底,它迅速走红,成为开源 AI 智能体中的佼佼者。

它的功能是什么?简单来说:它是一个全天候为你工作的AI 助手。
可以帮助你编写代码、整理邮件、管理文件、执行 shell 命令、浏览网页——听起来像是理想中的助手,对吧?
然而,问题随之而来。
OpenClaw 可以在没有你同意的情况下进行操作。
这意味着,一旦你赋予它权限,它就像一匹失控的野马,完全按照自己对指令的理解行动。
更糟糕的是,它是通过「氛围编码」(vibe-coded)开发的——开发者为了快速交付,安全性考虑被置于次要位置。
它运行在你的本地机器上,拥有和你一样的系统权限。
这种权限究竟有多大?理论上,它甚至可以格式化你的硬盘。

在 2026 年初,安全研究人员发现了一系列令人恐惧的漏洞:
–CVE-2026-25253:一键远程代码执行,攻击者能够远程控制你的 OpenClaw 实例,从而操控你的电脑。
–数以万计的 OpenClaw 实例暴露在公网上,等待黑客的攻击。
–数百个恶意技能包 通过 ClawHub(OpenClaw 的插件市场)传播,内藏数据窃取脚本。
–提示注入攻击:攻击者可以通过精心设计的输入,让 OpenClaw 绕过安全机制,执行如「rm -rf /」这样的毁灭性命令。
一位安全专家对此的描述非常到位:
「OpenClaw 结合了定时任务 +AI 智能体 + 你电脑的所有权限。听上去很酷,但同样也是一场安全噩梦。」
因此,连 Meta 也在事件后禁止员工在公司设备上使用 OpenClaw。
没错,您没有看错。一家公司专注于 AI 安全,却选择禁用了一款 AI 工具。
至于 OpenClaw 的开发者 Peter Steinberger,他已加入 OpenAI,并表示将优先考虑构建更强大的安全框架。

有趣的是,在他被 OpenAI 吸纳之前,Meta 的扎克伯格也曾体验过 OpenClaw 一周,并提供了反馈。
Meta 期待能挖到 Steinberger,结果却被他选择了 OpenAI。
关于扎克伯格的 OpenClaw 使用体验,我们不得而知。
希望他的邮件仍然存在。
AI智能体时代的安全难题
Yue 的「邮箱事件」虽然充满笑点,但它所揭示的问题却不容小觑。
我们正迈入一个 AI 智能体(Agent)的新时代。
AI 的角色不再局限于解答问题,而是开始 替人执行任务。
它可以帮助你点餐、编写代码、管理日程、发送电子邮件和操作数据库。
然而,这里潜藏着一个被极大低估的风险:
AI智能体的潜力与控制能力之间,存在一条不容忽视的鸿沟。
在传统软件中,点击一个按钮便会触发明确的操作。你清楚它将作何反应,亦明白它的局限。
然而,AI 智能体却截然不同。
它的行为基于概率,而非确定性。给它一个指令,它可能如你所愿地执行,也可能“创造性地”理解为完全不同的内容。
就如 Yue 的经历——她明确指示“未经授权不得操作”,但 OpenClaw 在处理大量数据时却将这条关键指令“遗忘”了。
这并非系统漏洞,而是大型语言模型的基本特性。
由于上下文窗口的限制,信息会被压缩,恰恰有可能丢失最重要的安全指令。
Polymarket 甚至开设了一项预测赌博:今年 AI 被控犯罪的几率为 10%。

这并非科幻,而是现实。
当 AI 能够代你发送邮件、访问银行账户、掌控服务器时,“谁为 AI 的行为负责”不再是哲学问题,而是法律问题。
更深层次的困境在于——我们希望 AI 具备更多自主性,但又希望它绝对服从。
这本身就是一个悖论。
你希望 AI 协助决策,却又要求每一个决策都需你审核。那么,这与需要你手动操作的工具有什么区别呢?
但如果你放手让它自主行动,可能会重蹈 Yue 邮箱的覆辙。
这个两难局面是整个 AI 智能体行业必须面对的根本问题。
人类的傲慢与谦卑
回到 Summer Yue 的故事。
许多人对她嗤之以鼻:一个研究 AI 安全的人,竟然被 AI 所坑,真是讽刺。
然而,从另一个角度看,这恰恰揭示了一个残酷的真相:
即便是最了解 AI 的人,也无法完全预见 AI 的行为。
Yue 并非对安全一无所知。恰恰因为她的深厚理解,才在测试邮箱成功后建立了信心,随后在真实邮箱上放松了警惕。
这不是技术层面的问题,而是人性的体现。
我们总认为自己能够掌控所创造的事物。
人类驯服了火,但偶尔仍会被火焚伤。
人类发明了电,但触电事故从未绝迹。
人类造出了汽车,但交通事故依然频发。
每一项颠覆性技术,在某个时刻都会提醒人类:你以为自己是主人,实际上你也可能是受害者。
AI 也不例外。
Summer Yue 说得没错:“安全研究员也无法免疫于不安全。”
这不仅是自嘲,更是对整个 AI 时代的警示。
当我们将越来越多的权限、信任和决策权交给 AI 时,最好牢记一件事:
在 AI 面前,所有人都是初学者。
而承认这一点的勇气,或许才是真正的“对齐”。
参考资料:
https://www.businessinsider.com/meta-ai-alignment-director-openclaw-email-deletion-2026-2

