探秘AI幻觉：OpenAI论文揭示模型背后的真相与奥秘

共计 2597 个字符，预计需要花费 7 分钟才能阅读完成。

当AI开始“胡说八道”，我们该如何应对？OpenAI罕见地解析了“幻觉”现象，揭示了为何大型模型在80%的准确率下能欺骗用户，以及哪些层级在背后捏造故事，RLHF（强化学习从人类反馈）能否根治这一问题。这篇论文就像一份“幻觉检测报告”，读后你将明白：幻觉并非错误，而是统计本质；与其追求零幻觉，不如学会给模型设置“概率口罩”，让其在应自信时自信，在应保持沉默时保持沉默。

在9月4日，OpenAI发布了一篇题为《语言模型为何会产生幻觉》的论文。这篇论文探讨了AI模型产生幻觉的原因，受到业界广泛关注。作为普通用户，我也想分享一些我认为值得关注的要点。有关AI幻觉的疑问，OpenAI的这篇论文或许能给你答案。

我们简要回顾一下“AI幻觉”的相关概念。今年四月，我曾发布了一些关于AI幻觉的视频和文章，其中提到AI的“幻觉”是指AI自信地给出表面合理但实际上错误的回答，通俗地说就是“一本正经地胡说”。AI幻觉主要有两种表现：无中生有和张冠李戴。

那么，AI产生幻觉究竟是好是坏？我认为其弊端远大于利。尽管有观点认为AI幻觉能激发创造力，但这种不可预测和不可控的“创造”并无实际价值。若一项特性无法预见与控制，它便无法成为稳定的能力。

作为一名AI培训讲师，我接触了许多企业学员，更加坚定了这一观点：AI模型的强大固然关键，但更为重要的是其服务的可靠性和稳定性，而影响这一点的主要因素便是“AI幻觉”。

对于为何AI会产生幻觉，以及如何减少或规避这一现象，业界一直在探讨，而OpenAI的论文对此进行了深入研究和论证。

既然AI幻觉弊大于利，那我们能否完全避免幻觉的产生呢？遗憾的是，OpenAI团队对此给出了否定的答案。论文中指出，生成可靠信息的难度远大于判断其可靠性，而在判断过程中必然会出现失误。

生成式AI的本质是基于上下文进行概率生成，即预测下一个词（Token）。这个过程依赖于“判断”，判断某个句子是否合理，但这并不涉及真正的“语义理解”，而是通过逐词预测计算条件概率，得出一个总概率值。若总概率值超过某个阈值，该句子就被认定为“合理”，反之则为“不合理”。因此，只要句子“看起来合适”，AI就会认为该句子是成立的。

举个例子，“万里无云的天空中飘着白云”这个句子显然是错误的。人类的判断基于逻辑推理，而AI则是通过概率来评估句子之间的搭配是否符合其训练中获得的统计规律。

这种判断方式显然无法完全可靠。因为AI的判断会碰到那些“似是而非、真假难辨”的内容，因此也难免出错（这正是统计学中的“大数法则”）。OpenAI的论文指出，导致判断错误的原因多种多样，例如：相关数据不足导致模型只能猜测；概念过于复杂模型无法解析；训练数据本身存在错误等。

因此，判断句子合理性时产生错误在所难免，而每次错误的发生都会被放大并影响生成的内容。因此，生成式AI的幻觉是无法避免的。

既然AI幻觉的产生不可避免，那我们是否可以采取措施抑制其发生呢？理论上是可行的，但实际上，AI幻觉的频繁出现却让我们感到无奈。

OpenAI的研究指出，AI模型频繁出现幻觉的原因在于人类训练AI时总是鼓励它“与其放弃，不如蒙一把”。论文中提到，当前主流的AI模型评估标准几乎都是“二元评分制”，即答案要么被判定为“正确”（得1分），要么为“错误”（得0分），并没有额外的扣分机制。

这个现象其实很好理解，考试就是一个典型的例子。我们在考试中即便遇到不会的题目，也会尽量给出一个答案，这种倾向同样适用于AI模型。我们来看一下OpenAI的两个模型在同一场名为SimpleQA的考试中的表现。

从表格中可以看到，O4-mini的准确度高于其后辈GPT5。然而，这种结果是以极高的错误率为代价的。因为GPT5在面对不确定性时会选择放弃，而不是强行猜测。这也是为何尽管O4-mini的准确率略高，实际体验中，GPT5的幻觉率更低。

类似的情况让我想起Deepseek-R1的训练奖励机制（关于Deepseek-R1的训练方式我之前有专门整理过一篇文章），其机制简单来说有两条：

1）准确度激励：判断答案的正确性。若模型回答正确则加1分，若错误则不加分。

2）格式激励：模型需遵循特定格式回答，即尝试提出推理过程。

这是一种简洁有效的思维链训练机制，但我们也知道，Deepseek-R1的幻觉率一直高于其他模型。现在来看，OpenAI的论文所揭示的，正是其背后的原因。

综上所述，尽管AI幻觉的产生是必然的，但人类的激励却导致了AI幻觉的泛滥，未能得到有效抑制。

现在，让我们总结一下论文对AI幻觉的讨论。OpenAI团队通过分析得出“幻觉的产生是不可避免”的结论，原因在于判断句子合理性的过程是基于概率的，而这种方式必然会出现错误。同时，OpenAI强调，在训练阶段的奖励机制过于专注于得分，等于鼓励AI选择“与其放弃，不如蒙一把”，这进一步导致了幻觉的加剧。（顺便提一下，网上不少文章声称OpenAI终于“找到了”AI幻觉的原因，这种说法并不准确。因为业内早有相关猜测，这次更确切地说是OpenAI“论证了”AI幻觉的原因）。

既然AI幻觉的产生无法避免，那么我们的应对策略就应尽可能降低其发生比例。由于当前的奖励机制鼓励“蒙答案”，我们应当改为鼓励AI“说不知道”。具体来说，我们可以建立“答对加分，放弃不得分，答错额外扣分”的机制，从而引导AI更加严谨地评估回答的准确性，仅在有充分把握的情况下进行回答。同时，在AI产品设计中，也应当允许AI选择“说不知道”。

关于AI幻觉的来源，一直以来众说纷纭，而OpenAI的这篇论文在某种程度上为此提供了明确的结论。我相信，这次关于AI幻觉的研究结果将为国内外的AI产品（尤其是幻觉问题较为严重的Deepseek）指明改进方向。期待不久的将来，AI产品能够变得“聪明可信”，让我们拭目以待。

本文由人人都是产品经理的作者【产品经理崇生】原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

来源：今日头条

原文标题：关于 AI 幻觉，或许你想知道的，都在 OpenAI 这篇关于模型幻觉的论文里 – 今日头条

原文链接：https://toutiao.com/group/7552148792066179594/

正文完