共计 3614 个字符,预计需要花费 10 分钟才能阅读完成。
机器之心报道
编辑:Panda
人工智能最令人关注的缺陷是什么?并不是系统崩溃,而是它的“幻觉”——模型可能会自信地编造虚假的信息,使得判断真伪变得异常困难。这一根本性的问题,成为了我们信任人工智能的主要障碍。
对于大模型产生幻觉的现象,几乎已成为共识,这使得每个认真使用这些模型的人都必须格外小心。OpenAI 也曾提到:“ChatGPT 有时会产生幻觉。GPT-5 在执行推理时的幻觉较少,但依然存在。幻觉依然是所有大型语言模型所面临的基本挑战之一。”
尽管学术界目前提出了多种方法来降低模型幻觉的发生,但迄今为止,尚未找到能够彻底解决这一问题的良策。
那么,究竟是什么原因导致大模型产生幻觉呢?今天,OpenAI 罕见地发布了一篇论文,系统地探讨了幻觉的形成原因。
首先,让我们明确何为幻觉。OpenAI 给出的简单定义为:“模型自信地生成不真实的答案。”
至于其成因,简而言之就是:现有的训练和评估流程更倾向于奖励模型的猜测,而不是鼓励模型在面临不确定性时选择坦诚。。
- 论文标题:Why Language Models Hallucinate
- 论文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
接下来,我们将详细探讨 OpenAI 的发现。
什么是幻觉?
幻觉是指语言模型生成的表面上看似正确但实际上是错误的陈述。
即便是那些看似简单的问题,它们也可能以出乎意料的方式出现。OpenAI 举了一个例子,当询问不同流行聊天机器人关于 Adam Tauman Kalai(这篇论文的第一作者)的博士论文标题时,它们给出了三个自信但错误的答案。
当询问他的生日时,模型也给出了三个不同且错误的日期。
为了测试而学习
OpenAI 指出,幻觉的持续存在部分是由于当前评估机制设置了错误的激励。虽然评估本身不会直接引起幻觉,但大部分评估模型性能的方式会促进模型进行猜测,而非诚实地面对不确定性。
可以将其比作参加多项选择题的考试。如果你对某个问题没有把握,但随便猜测,可能会运气好答对。留空答案则必定会得到零分。同样,当模型仅根据准确率进行评分时,它们会受到鼓励去猜测,而不是承认“我不知道”。
再举个例子,假设一个语言模型被问及某人的生日,但它并不知晓。如果它猜测“9月10日”,那么它的正确概率仅为1/365。而如果它选择说“我不知道”,则无疑会得到零分。在数千个测试问题中,倾向于猜测的模型往往在评分上表现优于那些谨慎并承认不确定性的模型。
对于那些只有一个“正确答案”的问题,可以将答案分为三类:正确答案、错误答案,以及模型不愿冒险猜测而选择放弃的答案。
OpenAI 强调,放弃回答的选择反映了谦逊(humility)的特质,而谦逊是其核心价值观之一。
虽然大部分评分指标是基于准确性来对模型进行排序,但提供错误答案的后果更为严重。OpenAI 的模型标准明确指出,在面对不确定性时,表达疑虑或寻求进一步的澄清更加妥当,而非自信地给出可能错误的答案。
以 GPT5 系统卡中的 SimpleQA 评估为例。
在准确性方面,早期的 OpenAI o4-mini 模型表现稍显出色,但其错误率(即幻觉率)却明显偏高。虽然在不确定的情况下进行策略性猜测可能提高准确度,但同时也会增加错误和幻觉的风险。
当对数十次评估结果进行汇总时,大多数基准测试会剔除准确度这一指标,这导致了对错之间的简单二分法。
在类似 SimpleQA 的简单评估中,一些模型的准确性接近 100%,因而消除了幻觉。然而,在那些更具挑战性的评估和实际应用中,准确性通常会保持在 100% 以下,原因在于某些问题的答案出于多种因素(如信息缺乏、小型模型的认知限制或存在需要澄清的歧义)而无法明确。
尽管如此,评估指标仍以准确性为主导,这在排行榜和模型卡上表现尤为明显,这无疑促使开发者倾向于构建能够进行猜测而非选择放弃的模型。
因此,尽管模型越来越先进,幻觉现象依然存在。这其中的原因之一是模型倾向于自信地给出错误答案,而不是承认其不确定性。
改进评估方法
为此,OpenAI 提出了一个简单的解决方案:对自信的错误(confidential error)实施更严厉的惩罚,而对表达不确定性的行为给予一定的加分。
这一想法并不算新颖。一些标准化测试早已采用负面评分法来惩罚错误答案,或对未回答的问题给予部分分数,以此来遏制盲目猜测。多支研究团队也在探索考虑不确定性和校准的评估方法。
然而,OpenAI 指出,仅仅增加一些新的不确定性感知测试并不足以解决问题。广泛使用的基于准确率的评估方法亟需更新,以阻止猜测行为。
如果主要评估指标依然奖励模型的幸运猜测,那么模型就会不断学习如何进行猜测。调整评估指标可以拓展减少幻觉的技术应用范围,涵盖新开发的以及已有的研究技术。
幻觉如何源于下一个词的预测
虽然我们已经讨论了为何幻觉如此难以根除,但这些具体的事实性错误究竟是如何产生的呢?
毕竟,大型预训练模型几乎不容易出现拼写错误或括号不匹配等问题。
OpenAI 指出,关键在于数据中所蕴含的模式。
语言模型通过预训练阶段学习,实际上是一个在海量文本中预测下一个词的过程。
与传统的机器学习问题不同,这里的每个句子并没有「真/假」的标签。模型仅接触到流畅语言的正面示例,并需努力去逼近整体分布。
在没有任何标记为无效的示例时,区分有效与无效的语句变得更加复杂。即使存在标签,一些错误依然难以避免。
为了理解这个现象,可以用一个简单的类比。若数以百万计的猫狗照片被标记为「猫」或「狗」,算法便能可靠地进行分类。然而,设想一下,若以宠物的生日为每张照片标注。由于生日本质上是随机的,无论算法多么先进,这个任务都难以做到准确。
同样的原则适用于预训练过程。拼写和括号遵循一致的模式,因此这些错误在规模扩大时会逐渐消失。但像宠物的生日这样随机的低频事实,无法仅凭模式预测,因此会产生幻觉。
OpenAI 的分析揭示了哪些类型的幻觉是由下一个词预测所引起的。理想情况下,预训练后的后续阶段应能消除这些幻觉,但由于前面所述的原因,这一目标并未完全实现。
总结
OpenAI 认为:「希望通过本文的统计学视角能够澄清幻觉的本质,并纠正一些普遍的误解」:
有人提出:通过提升模型的准确性可以消除幻觉,因为一个完美准确的模型是不会产生幻觉的。
研究表明:无论模型的规模或推理能力如何,准确度永远无法达到100%,因为某些现实世界的问题根本无法解答。
有人认为:幻觉是无法避免的。
研究发现:其实幻觉是可以避免的,因为在不确定的情况下,语言模型可以选择不作答。
有人表示:避免幻觉需要一定的智能,而这只有大型模型才能具备。
研究表明:小型模型在理解自身局限性方面往往更为出色。例如,当需要回答毛利语的问题时,一个对毛利语完全不懂的小型模型能够直接回答「我不知道」,而一个略懂毛利语的模型则必须评估其置信度。正如论文所指出的,「校准」所需的计算资源远低于维持准确性所需的资源。
有人认为:幻觉是现代语言模型的一个神秘缺陷。
研究显示:我们能够理解幻觉的生成机制以及在评估中所得到的奖励的统计原理。
有人认为:要评估幻觉的存在,仅需一个有效的评估标准。
研究发现:已有一些研究者提出了幻觉评估的相关研究。然而,与数百种传统的基于准确度的评估相比,一个好的幻觉评估几乎没有效果,因为这些评估往往惩罚谦逊而奖励猜测。相反,所有主要的评估指标需要重新设计,以鼓励对不确定性的表达。
OpenAI 表示:「我们最新的模型在幻觉方面表现更佳,我们将继续努力进一步降低语言模型输出中的置信错误率。」
据 TechCrunch 报道,OpenAI 正在重组其模型行为(Model Behavior)团队,这是一支规模虽小但影响力巨大的研究团队,负责决定该公司的 AI 模型与人类的交互方式。现在,该团队将汇报给 OpenAI 的后期训练主管 Max Schwarzer。
该团队的创始负责人 Joanne Jang 将启动一个新项目,名为 oai Labs。根据她的推文介绍:「这是一个以研究为导向的团队,专注于发明和设计人们与 AI 协作的新界面原型。」
参考链接
https://openai.com/index/why-language-models-hallucinate/
https://techcrunch.com/2025/09/05/openai-reorganizes-research-team-behind-chatgpts-personality/
https://x.com/joannejang/status/1964107648296767820