共计 3082 个字符,预计需要花费 8 分钟才能阅读完成。
(

(
在使用 AI 智能体时,风险无处不在。
例如,即便是在简易的聊天界面中,大型语言模型也可能出现偏差和错误。如果再加上网页浏览器、电子邮件等可以与外部环境互动的功能,其后果将更加严重。
这或许能解释为何第一款成功突破的个人助手并非出自顶尖的 AI 实验室,而是独立软件开发者彼得·斯坦伯格(Peter Steinberger)所创造。2025 年 11 月,他将名为 OpenClaw 的工具上传至 GitHub 平台。今年 1 月底,这个项目迅速引起关注。
OpenClaw 基于现有的大型语言模型,允许用户创建个性化的助手。然而,这也意味着用户需要提交大量的个人信息,包括电子邮件记录和硬盘数据,这让安全专家感到不安。OpenClaw 潜在的安全风险广泛,最近几周,相关的安全分析博客层出不穷,普通人可能需要花费近一周的时间来阅读完毕。中国政府已对 OpenClaw 的安全漏洞发出警告
对此类担忧,斯坦伯格在 X 平台上发文表示,非技术用户不应使用此软件。他尚未回应本文章的置评请求。然而,市场对 OpenClaw 的功能需求显而易见,这种需求并不仅限于具备软件安全检测能力的人群。所有希望进入个人助手领域的 AI 企业,都必须研发能够保障用户数据安全的系统,借鉴智能体安全前沿研究中的技术方案。
OpenClaw 实质上为大型语言模型提供了一种机械外骨骼。用户可以选择任意大型语言模型作为核心,这个模型将会具备更强的记忆能力,能够自主设定并定期执行任务。与顶尖 AI 企业推出的智能体不同,OpenClaw 支持全天候操作,用户可以通过 WhatsApp 或其他即时通讯软件与之互动。这意味着它可以成为一个强大的个人助手,每天早上提醒用户定制的待办事项,在工作时规划假期,闲暇时开发新应用。
然而,这种强大的能力也伴随了相应的风险。用户若希望 AI 助手管理邮箱,就必须授予其访问权限,这其中包含所有敏感信息;若希望助手代为购物,则需要提供信用卡信息;若想让助手在电脑上编写代码,则需允许其访问本地文件。
这些权限可能导致多种问题。首先,AI 助手自身可能出现操作失误,曾有用户的 Google Antigravity 编程智能体意外清空了整个硬盘。其次,黑客可能利用常规工具入侵智能体,窃取敏感数据或执行恶意代码。在 OpenClaw 迅速走红的这几周,安全研究人员发现了大量此类漏洞,缺乏安全意识的用户面临着风险。
对此类风险有应对之法。一些用户选择在独立电脑或云端上运行 OpenClaw,以避免硬盘数据被清空,而其他漏洞则可通过成熟的安全技术修复。
不过,本文采访的专家 特别关注一种更隐蔽的安全风险——提示词注入。提示词注入实际上是对大型语言模型的劫持。攻击者只需在大型语言模型可能访问的网页上发布恶意文本或图像,或将此类内容发送至模型读取的邮箱,就能操控模型按其指令行事。
如果这款大型语言模型拥有用户隐私信息的访问权限,后果将不堪设想。多伦多大学电气与计算机工程教授尼古拉斯·帕佩诺(Nicolas Papernot)指出,使用 OpenClaw 这样的工具就如同将钱包交给陌生人。顶尖 AI 企业能否放心推出个人助手产品,关键在于其能否有效抵御此类攻击。
需要指出的是,提示词注入目前尚未导致重大安全事故,至少没有公开报道。但如今网络上已有数十万 OpenClaw 智能体在运行,提示词注入可能成为网络犯罪分子更青睐的攻击手段。帕佩诺表示,这类工具可能使恶意攻击者的目标转向更广泛的用户群体。
提示词注入这一概念由知名大型语言模型博主西蒙·威利森(Simon Willison)在 2022 年提出,距 ChatGPT 发布仅几个月。早在那时就可以预见,大型语言模型的普及将带来新的安全漏洞。大型语言模型难以区分用户指令与执行这些指令所需的数据,邮件、网页搜索结果等内容在模型眼中都只是普通文本。
因此,若攻击者在邮件中嵌入几句话,模型误将其视为用户指令,就能操控模型完成任何操作。
提示词注入是一个棘手的问题,短期内难以彻底解决。加州大学伯克利分校计算机科学教授 Dawn Song 表示,目前行业内尚未找到完美的防御方案。但众多学术团队正在对此进行研究,已提出多种策略,未来有望实现 AI Agent 的安全应用。
从技术层面来看,当前使用 OpenClaw 时可以规避提示词注入的风险,只需断开网络连接。然而,禁止 OpenClaw 读取邮件、管理日程和进行网络调研,将损失其核心功能。防御提示词注入的关键在于,在阻止模型被劫持的同时保留其正常工作的能力。
第一种策略是训练大型语言模型,使其忽略提示词注入。大型语言模型研发的核心环节在于后期训练,开发人员通过合理的回应获得正向反馈,而错误回应则接受负向反馈,逐步培养出实用的助手。
这种正向与负向反馈机制是象征性的,大型语言模型会如同动物般从中学习。通过这一过程,可以训练模型拒绝执行特定的提示词注入指令。
然而,这个过程需要把握平衡。如果过度训练模型拒绝注入指令,模型也可能拒绝用户的合理请求。大型语言模型的行为本身存在随机性,即使经过高效训练,能够抵御提示词注入,偶尔也会发生失误。
第二种方法是对提示词注入攻击进行预先拦截。通常会采用专用的检测模型,检查传输至目标模型的数据中是否含有注入内容。但近期的研究表明,即便是性能最优的检测模型,也无法识别所有类型的提示词注入攻击。
第三种策略更为复杂。该方案并非通过检测输入内容是否存在注入来控制数据,而是制定规则来限制模型的输出行为,避免模型执行有害操作。
这类防御措施中的一些规则相对简单。例如,限制模型仅能向经过审核的邮箱地址发送邮件,可以避免用户的信用卡信息被泄露给攻击者。然而,这类规则会限制模型完成许多实用任务,例如进行调研并联系潜在的职业人脉。
杜克大学电气与计算机工程教授 Neil Gong 表示,挑战在于如何精确制定这些规则,需要在实用性与安全性之间取得平衡。
从更广泛的角度来看,整个智能体领域都在权衡这一平衡。智能体需达到何种安全标准,才能兼顾实用性与安全性,专家对此看法不一。Song 创办的 Virtue AI 公司正在研发智能体安全平台,她认为目前已能安全部署人工智能个人助手。但 Gong 则表示,行业尚未达到这一水平。
尽管人工智能智能体尚未能完全抵御提示词注入,仍有多种方法可以降低风险。一些技术方案也可应用于 OpenClaw。上周在旧金山举行的首届 ClawCon 活动上,斯坦伯格宣布已聘请安全专家参与该工具的研发。目前 OpenClaw 仍存在安全漏洞,但这并未打消众多热衷用户的使用热情。
乔治·皮克特(George Pickett)是 OpenClaw GitHub 仓库的志愿维护者,也是该工具的爱好者。他采取了多项安全措施保障使用安全,在云端运行工具,避免硬盘被误删,同时设置防护机制,防止他人接入自己的智能助手。
不过,他并未采取专门措施防范提示词注入。他意识到了这一风险,却没有看到相关攻击事件的报道。皮克特坦言,或许这种想法很不明智,但他并不认为自己会成为首个受害者。
https://www.technologyreview.com/2026/02/11/1132768/is-a-secure-ai-assistant-possible/


这个助手真能做到像文章说的那样吗?我还是有点怀疑,安全性成疑。