AI 成果“过度包装”：GPT-5 数学能力的质疑与反思

没有评论

共计 3829 个字符，预计需要花费 10 分钟才能阅读完成。

这个周末，人工智能领域可谓热闹非凡，OpenAI成为舆论的焦点，谷歌、Meta及多位AI行业的领军人物纷纷参与其中。

简单来说，OpenAI的研究者声称，GPT-5“发现”了十个悬赏数学难题的解法，但舆论却误解为GPT-5独立给出了答案，后来被证实其实只是检索到了已有文献，导致学术界的普遍嘲讽，以及对AI夸大宣传的激烈讨论。

事情的起因可追溯到几条在社交平台上引起热议的推文。

10月12日，Sebastien Bubeck在推特发文，称GPT-5在文献检索方面表现出色，发现Erdős问题339已经被解决，但在官方数据库中尚未更新。

10月17日，OpenAI的研究员Mark Sellke转发了此信息，并表示他与Mehtaab利用GPT-5模型进行了深入的研究，经过数千次查询，调查了http://erdosproblems.com上标记为“开放”的Erdős问题。

他们声称“发现”了十个问题的解决方案（问题编号为223、339、494、515、621、822、883（第2/2部分）、903、1043、1079）。此外，他们在另外11个问题上也取得了一定的进展。

OpenAI的首席产品官Kevin Weil也对此进行了转发。

这些问题来源于数学家Paul Erdős提出的未解决问题列表，该网站由数学家Thomas Bloom进行维护。

OpenAI副总裁Sebastien Bubeck再次转发，并声称“AI加速科学的时代已经开启”，并宣布Mark Sellke加入OpenAI。

因此，公众和媒体普遍认为，GPT-5在数学推理能力上取得了突破，能够独立解决人类数学家多年来未解的难题。

然而，这场热潮仅仅维持了几个小时，就迎来了戏剧性的反转。

谷歌DeepMind的CEO Demis Hassabis在Sebastien Bubeck那条“AI加速科学”的推文下评论道：这很尴尬。

随后，Hassabis引导公众关注该数学难题网站的维护者，数学家Thomas Bloom的澄清。

Thomas Bloom表示：OpenAI的表述存在“戏剧性的误解”。在网站上标记为“未解决”的问题，仅代表他个人尚未获知相关解答已被发表，并不意味着没有其他数学家解决了这些问题。

换句话说，GPT-5更像是一个高效的学术搜索引擎，而非真正的数学家。

Sebastien Bubeck随即删除了他的推文并致以歉意，表示“我并无意误导任何人，我认为表述非常清楚，抱歉”。他还强调，AI在文献搜索中的作用是极其宝贵的，因为“我非常清楚搜索文献的难度”，这能够加速科学研究。

Kevin Weil也删除了帖子，承认“我实际上误解了我们的结果（尴尬）”。Mark Sellke的更新也转发了这一信息。

对此，Lecun进行了辛辣的点评，称（OpenAI）被自己对GPT的吹捧所坑害（Hoisted by their own GPTards），讽刺其自缚。

注：这一说法源自莎士比亚的戏剧《哈姆雷特》，原意是“被自己的炸药炸伤”，而“petard”则被改为“GPTards”。

%5C%22https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650996473&idx=1&sn=a3949c755279c774d065eac6f18d8bb0&chksm=85ae9a0ecdb40f5c643d649638f2815c671a43f2a334f76cf8035863eb9c1380204ba4e595fe&scene=0&xtrack=1#rd%5C%22

OpenAI「解决」10道数学难题？哈萨比斯直呼「尴尬」，LeCun辛辣点评

GPT-5的这场闹剧实际上展现了一个颇具代表性的“路径”：

研究者兴奋分享 → 机构或高管放大 → 竞争对手与学术界的校正 → 舆论的反转。

社交媒体上的简短表达常常容易引发误解。

比如，“found solutions”这个词组，有人可能会理解为“找到了现成的答案”，而另一些人则可能认为是“自己创造了全新的解法”。

这种模糊性往往会导致误解的发生。

这与传播学中的“萨根标准”相吻合，即“非凡的主张需要非凡的证据来支撑”（Extraordinary claims require extraordinary evidence）。

你的说法越轰动，就越需要提供强有力的证据。

当然，我认为在X上发布的那条消息，确实没有“歧义”，其意思非常明确，就是“solve”，解决了！

也正因用词如此“大胆”和“放肆”，所以被反转时才显得如此……有趣？

被Yann LeCun在推特上讽刺：

“Hoisted by their own petard” 是一个经典的英语成语，源自莎士比亚的《哈姆雷特》，本意为“被自己的炸药炸伤”。

LeCun改编的“GPTards”一词显然带有贬损和讽刺的意味，几乎写在了脸上。

Emily Bender等人在《Stochastic Parrots》中提出，大型语言模型擅长生成似真语言，但流利的语言不等于新知识的创造。

在各个领域的科研中，尤其是在数学领域，当我们说一个问题被解决时，通常意味着有人提出了新的正确证明或创新的方法，并且这一成果经过了同行评审。

有时，问题的答案其实早已在某篇论文中存在，只是大家尚未发现，这种情况被称为信息发现。

两者的价值显然是截然不同的。

陶哲轩对AI在数学领域的应用发表了自己的看法：

https://mathstodon.xyz/@tao/115385022005130505

陶哲轩表示，他越来越觉得，AI在数学领域最近最有价值的地方，并不是依靠最强大的AI模型去攻克最难的数学问题。尽管在这一方向上，我们确实会看到一些成功的个案，特别是在投入大量计算资源和专家精力的情况下。

但更实用的做法是：

人工智能在研究中的实用价值与潜在问题

利用中等能力的人工智能工具来加速和扩展那些较为常见且耗时的研究任务，尽管这些工作看似平平无奇，但却是研究活动中不可或缺的组成部分。在进行这些任务时，依赖人类在该领域的经验和理解至关重要，这些经验不仅能有效引导AI，还能帮助验证其输出的准确性，从而安全地将AI的结果纳入到工作流程中。

陶哲轩特别指出：

在这种应用场景下，AI工具所“生成”的结果，实际上人类专家也能够完成，只是需要投入更多的时间与精力。然而，这恰恰是一个优势而非劣势，因为这表明AI的输出能够被人类专家轻松地评估和确认，而且这些结果可以方便地转化为专家们已经熟悉的格式。

换句话说，当前AI最适合的角色并非独立解决高难度问题，而是作为高效助手，帮助研究人员完成那些他们本身就知道怎么做但耗时的工作。

这样的安排使得研究者能够全面理解和验证AI所执行的任务是否正确，避免出现AI提供的答案却让研究者困惑、无法判断对错的情况。

目前以GPT为代表的许多AI模型都是闭源的，这意味着它们的内部运作方式和训练数据并不公开。

因而，外界很难独立验证这些模型到底完成了什么……

在它给出一个结果时，我们难以判断它究竟是从现有文献中提取并整理的信息，还是对已有知识进行的语言重组，亦或是真正进行了创新性推理。

美国国家标准与技术研究院（NIST）提出的AI风险管理框架强调：一个值得信赖的AI系统需要具备三个关键要素——可验证的结果、可解释的决策过程以及透明的运作方式。

缺乏这些特征，人们很容易将AI作为实用工具的“能力”错误地理解为科学研究中的重大“突破”。

近年来的研究揭示了一个共同的问题：

大型模型在训练期间可能已经“见过”评测标准中的测试数据，这一现象被称为数据污染。

这些模型通过海量的网络数据进行训练，而许多评测标准也是基于互联网构建，因此训练数据与测试数据之间可能存在重叠。

当模型在训练阶段接触过测试集中的题目时，其在评测时的高分可能并不源于真正的推理能力，而仅仅是因为它记住了答案。

有研究提出了一种测试方法，通过遮挡多选题中的某个错误选项，要求模型去猜测被遮挡的内容。

结果显示，ChatGPT和GPT-4在MMLU这个被广泛使用的评测基准上，能够准确猜出被遮挡选项的比例分别达到52%和57%。

考虑到错误选项本应非常多样，毕竟正确答案只有一个，而错误答案却可以有千差万别。

模型如此精准地预测测试集中的具体选项，强烈暗示它们在训练期间已经接触过这些数据。

这种数据污染所引发的问题，实际上就是GPT-5此次失误的根源，可能导致公众和研究者的误判。

当看到模型在数学或逻辑推理题上取得高分时，人们容易误以为模型真正掌握了推理能力，确实“学会了解题”。

然而，实际上模型仅仅是记住了测试集中的题目和答案，这些高分并不能证明模型具备真正的推理能力。

再加上“夸张的宣传文案”，出现这种“大模型无所不能”的误解就不足为奇了。

我认为，正如陶哲轩所说，应该让大型模型回归到它应有的位置，专注于它擅长的信息检索、归纳和总结，这或许是当前大模型的正确使用之道。

来源：知乎

原文标题：OpenAI 称 GPT-5 解决数学难题遭质疑，如何看待 AI 成果的「过度包装」？ – Trisimo崔思莫的回答

原文链接：https://www.zhihu.com/question/1963334859620618725/answer/1963348295108792853

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

发表至： ai编程

2025-12-05

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

AWS全新AI编程工具揭秘！多模态交互助力“实时”代码生成

你会选择使用GPT-5吗？揭秘AI信息差的真相！

掌握这6个超实用光标技巧，避开4个常见误区，新手必看，助你少走半年弯路！

风驰电掣的海上极限运动！Windsurf使用教程让你快速成为风帆高手

智能选票新时代：Cursor与12306 MCP联手打造超酷AI系统！

明星AI独角兽Windsurf的资本争夺战：背叛、分裂与共识的崩溃

国内AI IDE大比拼：trae、qoder、CodeBuddy与CodeFlicker，究竟谁才是最佳选择？

2025年最具颠覆性的十大AI编程工具，重塑软件开发未来

马斯克的Grok4升级：上下文扩展至200万，算力超越GPT-5五倍，这对未来意味着什么？

AI 成果“过度包装”：GPT-5 数学能力的质疑与反思

GPT-5解决数学难题？

反转：“这很尴尬”

自食其果

硅谷已落后，中国AI逆袭：一句话应用真的能致富吗？

2025年AI编程行业全景研究：从智能辅助到自主开发的范式转变

Trae 3.0 SOLO 正式版发布：全新体验带来哪些惊喜？

百度引领智能体与无代码革命：开启AI技术新时代！

人工智能的崛起：AI编程工具是程序员的梦境还是噩梦？

掌握OpenClaw的真正挑战：顺畅操作是提升生产力的关键起点

暑假项目计划：AI辅助编程工具选择大比拼，Cursor、Trae谁更胜一筹？

百度AI：引领未来的智能革命