为何ChatGPT总胡说？OpenAI：因为我们一直对它“应试教育”，蒙对答案能得分 – 今日头条

共计 1443 个字符，预计需要花费 4 分钟才能阅读完成。

在人工智能领域，” 幻觉 ” 这一概念始终备受关注。所谓幻觉，指的是 AI 所给出的答案虽然听上去合理，实际上却是完全错误的。目前绝大多数 AI 的评估标准采用的是二元评分系统：若回答正确则得分，若回答错误或者选择“不知道”则不获分数。这导致的结果是，若模型选择承认不确定性，其表现就会显得较差；相对而言，只要它编造的答案恰巧正确，就会被视为“表现更佳”。这种机制在无形中对自信的错误信息进行了“奖励”，而诚实的回答则遭到惩罚。

概念图据图虫创意

原因

“语言模型因优化而擅长应试，

进行猜测会提升考试成绩”

上周，OpenAI 发布了一项研究，题为《语言模型产生幻觉的原因》，首次系统性地指出幻觉并非偶然，而是来自模型本身的结构性机制。研究进一步揭示，问题的根源在于评估体系：其机制奖励猜测，从而促使幻觉的产生。

研究表明，当“我不知道”仅能得零分，而一个看似合理的猜测却有可能获得满分时，模型的最佳策略便是尽量进行猜测。这些模型并非被设计去故意撒谎，而是在现有机制下，虚张声势能获得更高的分数。正如 OpenAI 所言：“幻觉之所以会持续存在，主要是由于大多数评估的打分方式。语言模型被优化得更擅长应试，而在不确定时进行猜测能够提高考试表现。”

学生考试（创意图片，据图虫创意）

这就如同在学校考试一样。如果你不知道答案，往往会选择蒙一个，希望能够碰巧答对。这恰恰是大型语言模型（LLMs）被训练去做的事情。它们始终处在“考试模式”：保持沉默会遭到惩罚，而猜测则被视为聪明。OpenAI 的研究人员总结道：“人类在生活的体验中学会了表达不确定性的价值，而语言模型则主要通过那些惩罚不确定性的考试进行评估。”换句话说，我们一直在将 AI 培养成“永远的考生”，它们被优化的目标是考试成绩，而非可信度。

修正

调整评估标准

不能因“不回答而惩罚”

OpenAI 还发布了其模型的基准测试结果。最新的推理模型 GPT-5 Thinking Mini 的准确率为 22%，略低于前一代 o4-Mini 模型的 24%。然而，GPT- 5 的弃答率（即回答“我不知道”）达到 52%，错误率为 26%；相比之下，o4-Mini 的弃答率仅为 1%，但错误率却高达 75%。o4-Mini 频繁的猜测行为同时增加了正确和错误的回答。研究人员指出：“大多数评分体系依据准确率对模型进行排名，但错误的后果要比弃答更为严重。”

针对这个问题，OpenAI 提出的解决方案不是重建模型，而是调整评估标准。研究人员认为，“根本性的问题在于大量评估方法之间缺乏一致性。现有的主要评估方式需要进行调整，以避免在模型不确定时惩罚其选择不作答”。该公司在另一篇文章中补充道：“那些广泛采用的、基于准确率的评估需要更新，评分方式必须阻止模型进行猜测。如果常用的评测体系继续奖励侥幸的猜测，模型最终将越来越依赖这种策略。”

这是一个微妙但至关重要的转变。多年来，行业一直在竞相让聊天机器人更快、更聪明和更流畅，但这些特质并不意味着值得信赖。真正的挑战在于，如何构建一个能够在知识和谦逊之间取得平衡的系统。通过调整评估方式，OpenAI 希望能培养出更少依赖“装懂”的模型，而是能够提供更稳健和可信的回应。毕竟，当用户向 AI 寻求医疗建议或理财指导时，最希望看到的就是一个确实值得信赖的答案，而不是一个听起来非常自信却完全虚构的答案。在一个常常被指责为“过度炒作”和“半真半假”的行业里，这种减少虚张声势的呼吁，或许是迄今为止最为激进的想法。

红星新闻记者王雅林实习记者杨诗柔

编辑邓旆光

（下载红星新闻，报料有奖！）