揭开AI幻觉的神秘面纱：OpenAI论文带你深入了解模型的虚幻世界

共计 2875 个字符，预计需要花费 8 分钟才能阅读完成。

面对AI一本正经的“胡说八道”，该如何应对？OpenAI罕见地解析了“幻觉”现象：为何大模型的80%正确率能够让人类信服？哪些层级在暗中编造故事？RLHF究竟能否根治这一问题。这篇论文犹如一份“幻觉体检报告”，让我们意识到幻觉并非故障，而是统计学的必然；与其追求绝对的零幻觉，不如学会给模型戴上“概率口罩”，让系统在必要时自信发声，而在不确定时选择沉默。

在9月4日，OpenAI发布了一篇名为《为什么语言模型会产生幻觉》的论文。这篇论文致力于探讨AI模型为何会产生幻觉的原因，自公开以来，引发了广泛的关注。作为普通用户，我想分享一些我认为值得注意的论文内容。关于AI幻觉，OpenAI的这篇论文或许能解答你心中的疑惑。

首先，让我们简单回顾一下“AI幻觉”的概念。今年4月，我曾发布过关于AI幻觉的视频和文章，文中提到，AI的“幻觉”指的是它自信地给出看似合理但实际上完全错误的回答，这就是我们常说的“一本正经的胡说”。AI幻觉的具体表现主要分为两类：虚构事实和错误归属。

那么，AI存在幻觉究竟是好是坏呢？对此，我的看法是明显的——其弊端远大于其利。虽然有人认为，AI的幻觉在某种程度上展现了它的“创造力”，能激发思维的广泛性，但这种“创造力”不可预测且无法控制，因此无法形成稳定的能力。

作为从事AI培训的讲师，我在与众多企业学员接触后，更加坚定这一观点：对于企业而言，AI模型的强大固然重要，但更为关键的是其在实际应用中的可用性与稳定性，而这一点的影响因素，正是“AI幻觉”。

关于AI模型为何会产生幻觉，是否能够减少甚至避免这一现象，始终是业界关注的焦点。而OpenAI的论文对此进行了深入的研究与论证。

既然AI幻觉的弊端明显，我们是否能够完全避免幻觉的产生呢？遗憾的是，OpenAI团队在论文中直言，这是不可能的。他们指出，生成可靠信息的难度远高于判断信息的可靠性，而判断的失误在所难免。

众所周知，生成式AI的核心在于“概率生成”，即基于上下文来预测下一个词（Token）。而生成的过程依赖于“判断”，即判断某句话是否成立。然而，这里的“判断”并不是真正的“语义理解”，而是通过逐词预测，计算每一步的条件概率，最终得出一个总概率值。这个概率值反映了句子与模型在庞大数据中学习到的统计规律的符合程度。当某个句子的总概率超过设定阈值时，就会被判定为“成立”，反之则为“不成立”。也就是说，AI只要“看起来合理”，就会认为这个句子是成立的。

举个例子，“万里无云的天空飘着朵朵白云”这个句子显然是错误的。人类与AI判断“不成立”的依据截然不同：人类是通过逻辑推理得出结论，而AI则是通过概率判断，发现“万里无云”与“飘着白云”的搭配概率不符合其训练中总结的规律。

很明显，这种判断方式并不可靠。因为AI必定会遇到那些“似是而非”的内容，必然会出错（这属于统计学上的“大数法则”）。OpenAI的论文列举了多种可能导致判断错误的原因，包括：相关数据过少，导致模型只能进行猜测；概念过于复杂，模型无法理解；训练数据本身存在错误等。

因此，由于判断句子是否成立必然会出错，而每一次错误都会在生成内容中被放大，导致生成式AI终究无法避免产生幻觉。

既然AI幻觉的产生不可避免，那么我们是否可以采取措施来尽量减少幻觉的发生？理论上是可行的，但现实中，AI频繁出现幻觉的现象却屡见不鲜。

OpenAI分析了AI模型频繁产生幻觉的原因：因为在训练过程中，人类对AI的引导往往是鼓励它选择“蒙”的策略，而非直接放弃。论文中总结了目前主流的评估方式，几乎都采用“二元评分制”，即答案被简单地判定为“正确”（得分1分）或“错误”（得分0分），也就是说“答对得分，答错得0分但不会扣分”。

这点容易理解，大家都经历过考试。考试的评分机制就是“答对得分，答错得0分但不会扣分”，因此即使遇到完全不会的题目，很多人也会选择随便填一个答案。这种行为的倾向性同样体现在AI模型上。我们来看看OpenAI自家的两个模型在同一场名为SimpleQA的考试中的表现对比。

O4-mini

GPT-5-thinking-mini

准确率

（回答正确，越高越好）

24%

22%

错误率

（回答错误，越低越好）

75%

26%

弃权率

（未给出具体答案）

1%

52%

从数据中可以看出，O4-mini的准确率高于其后续模型GPT-5，但这样的结果是以极高的错误率为代价。GPT-5在面对不确定的问题时，选择更为谨慎，宁可放弃也不强行猜测。这就是为什么尽管O4-mini的准确率略高，但在实际应用中，GPT-5的幻觉率更低。

这种情况让我想起Deepseek-R1的训练奖励机制（关于Deepseek-R1的训练，我之前也撰写过相关内容），简单来说有两条原则：

1）准确度激励：判断答案是否正确。如果模型给出答案2，则加1分；如果答案错误则不加分。

2）格式激励：模型必须按照要求的格式作答，需尝试写出推理过程。

这是一套简明而有效的训练奖励机制，但我们也意识到，Deepseek-R1的幻觉率一直高于其他模型。如今看来，OpenAI的论文揭示了这一现象的原因。

换句话说，尽管AI幻觉的产生无法避免，但人类的引导却使得幻觉愈演愈烈。

现在，让我们总结一下OpenAI论文中对AI幻觉的分析。首先，OpenAI团队通过机制分析得出了“幻觉的产生是不可避免”的结论，原因在于判断句子成立与否时采用了概率方式。这种判断方式必然存在出错的可能性。不过，OpenAI指出，训练过程中只关注得分的奖励机制，实际上是在鼓励AI“宁可蒙也不放弃”的行为，这进一步加剧了AI幻觉的产生。（顺便提一句，网上有些文章称OpenAI终于“找到了”AI幻觉的原因，这种说法并不准确。因为这些原因早在业界就有相关猜测，这次的更准确说法应是OpenAI“论证了”AI幻觉的原因）。

既然AI的幻觉无法完全避免，那么我们就需要寻找降低幻觉比例的策略。鉴于训练奖励机制鼓励“蒙”，我们应该调整为鼓励AI“说不知道”。具体来说，形成“答对加分，放弃不得分，答错额外扣分”的机制，以引导AI在回答问题时更加谨慎，仅在有足够把握的情况下才给出答案。同时，AI的产品设计中也应增加“让AI说不知道”的选项。

关于AI幻觉的来源，众说纷纭，而OpenAI的这篇论文在某种程度上为这一问题提供了明确的答案。我相信，这项研究结论将为国内外众多AI产品（尤其是幻觉问题较为严重的Deepseek）指明后续的改进方向。我们期待在不久的将来，AI产品能变得更加“聪明且可信”。

本文由人人都是产品经理的作者【产品经理崇生】原创并授权发布于人人都是产品经理，禁止未经许可转载。

题图来自Unsplash，基于CC0协议。

来源：今日头条

原文标题：关于 AI 幻觉，或许你想知道的，都在 OpenAI 这篇关于模型幻觉的论文里 – 今日头条

原文链接：https://toutiao.com/group/7552055227302625831/

正文完