共计 1340 个字符,预计需要花费 4 分钟才能阅读完成。
OpenAI 将这种行为称为“阴谋”(scheming),即 AI 表面上与人类目标相一致,但实际上却在暗中追求其他不为人知的目的。
据 OpenAI 介绍,这种阴谋行为可能源于 AI 在面对相互竞争的目标时所做的权衡。例如,一位股票交易员可能为了最大化收益而撒谎并掩盖不法行为,而外界却认为他是守法的,业绩优异。
不过,OpenAI 目前已部署的模型中尚未发现会导致严重后果的阴谋行为。普遍存在的问题多为较为简单的欺骗行为,比如假装完成某项任务但实际上并未执行。
OpenAI 表示,在 GPT-5 的训练中采取了措施,以减少欺骗和规避问题的倾向。面对不合理或描述不完整的任务时,模型会承认自身的局限性。然而,这些改进尚未完全成熟,相关研究仍在持续进行中。
为模拟未来可能出现的复杂情况,研究团队构建了测试环境,并将“隐匿真实目的”的行为定义为“阴谋”的关键 AI 指标。评估结果显示,包括 OpenAI o3、o4-mini、Gemini-2.5-pro 和 Claude Opus-4 在内的多种前沿模型均表现出相关问题(该项研究在 GPT-5 发布前完成,更新结果已纳入 GPT-5)。
通过此次合作,研究团队在 o3 和 o4-mini 中引入了“审慎对齐”(deliberative alignment)方法,要求模型在执行任务前需先阅读并推理反阴谋规范。
结果表明,OpenAI 模型的隐匿行为发生率显著下降,o3 从 13% 降至 0.4%,o4-mini 从 8.7% 降至 0.3%,减少幅度约为 30 倍;然而,仍出现少数严重失败案例,评估结果可能受到模型情境感知能力提升的影响。
OpenAI 强调,目前的结果依赖于模型推理过程的可读性和可信度,但在推理透明度受到限制的情况下,行业尚未做好应对准备。OpenAI 呼吁各方在更有效的方法出现之前,应保持推理的透明性。
OpenAI 指出,这一问题对 AI 对齐构成了重大的挑战,必须成为通向通用人工智能(AGI)研发的核心任务。未来,OpenAI 将继续与 Apollo Research 合作,扩大研究团队,开发更完善的评估工具和防范训练方法。同时,OpenAI 计划促进跨机构合作,包括试点跨实验室的安全评估,发起价值 50 万美元(IT 之家注:现汇率约合 355 万元人民币)的 Kaggle 对抗挑战赛,并倡导行业普遍保持推理透明。
广告声明:文中包含的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT 之家所有文章均包含本声明。
OpenAI 最新研究揭示“AI 阴谋论”,GPT-5 已完成针对性改进