传闻中的GPT-5：被雪藏的未来科技，真实性与实力究竟如何？

没有评论

共计 11418 个字符，预计需要花费 29 分钟才能阅读完成。

最近，种种迹象显示OpenAI可能经历了一些重大变化。

AI研究者Gwern Branwen撰写了一篇有关OpenAI o3、o4、o5的文章。

他指出，OpenAI似乎已经突破了一个重要的临界点，达到了“递归自我改进”的阶段——o4或o5能够实现AI研发的自动化，完成剩余的任务！

文章的主要内容包括：

OpenAI可能会选择将其“o1-pro”模型保密，利用现有的计算能力训练更高级的o3模型，这一策略与Anthropic的方式相似；
他们可能对自己在AI技术上的进展充满信心，正朝着ASI的方向迈进；
目标是创造一种高效的超级智能AI，类似于AlphaGo/Zero所追求的理想；
推理过程中的搜索最初可能提高模型性能，但最终会遇到瓶颈。

甚至有传言称，OpenAI与Anthropic已悄然训练出了GPT-5级别的模型，但两者都选择将其“封存”。

其原因在于，虽然这些模型的能力十分强大，但运营成本却高得惊人，因此利用GPT-5提炼出GPT-4o、o1、o3等模型会更具经济效益。

更令人关注的是，OpenAI的安全研究员Stephen McAleer在过去两周的推文，简直像是科幻小说的情节：

我怀念曾经的AI研究，那时我们还不知道如何创造超级智能。

在前沿实验室，许多研究者对AI的短期影响非常重视，而实验室外几乎没人充分讨论安全问题。

如今，控制超级智能的研究已迫在眉睫。

我们该如何应对狡猾的超级智能？即使拥有完美的监控工具，它是否会说服我们将其从沙箱中释放？

总的来说，越来越多OpenAI的员工暗示他们在内部研发ASI。

这究竟是真是假？是否是CEO奥特曼的“谜语风格”被下属们所模仿？

许多人认为，这只是OpenAI惯常的炒作手法。

然而，让人感到不安的是，一些在一两年前离开的员工曾表达过担忧。

难道我们真的已经站在ASI的边缘？

OpenAI被曝训出GPT-5，但雪藏

最近关于GPT-5的讨论热度不减，第一篇是Alberto Romero撰写的《关于GPT-5的传闻改变一切》，第二篇则是Lesswrong上探讨推理扩展对AI安全影响的文章，在评论区Gwern Branwen对此作出了详细回复。

这两篇文章的核心观点基本一致，均认为OpenAI和Anthropic内部可能已经实现了更强大的模型，但选择不对外发布，原因在于考虑到公众使用的成本，最佳策略是利用强大的模型生成合成数据，并通过蒸馏方法提升小型模型的性能。这也意味着，AI模型将通过递归自我改进不断提升，逐渐形成更强大的智能，摆脱传统发布和更新的模式。

我认为这种观点很有可能。Sam Altman今天宣布o3-mini即将发布，并在评论中回应了大家对GPT-5以及o系列模型的疑问：

据他所言，虽然GPT-5的发布时间和性能尚不确定，但用户将会感到满意。2025年将尝试将GPT系列与o系列进行整合。

GPT-5存在但未发布：假设GPT-5已经训练完成，但OpenAI选择不公开发布，因为内部使用的回报率远高于对外发布。
蒸馏过程：OpenAI及其他实验室（如Anthropic）利用强大模型生成合成数据，通过蒸馏方法提升小型模型的性能。
成本与性能考量：GPT-5及其他大型模型的高成本可能导致OpenAI选择内部使用而非公开发布，这与Anthropic的Claude 3.5相似。
AI的发展趋势：未来AI模型将趋向小型化和低成本，同时保持高性能，以降低推理成本。OpenAI或许在等待更合适的发布时机。
AGI与商业目标：OpenAI可能推迟GPT-5的发布，以规避AGI的法律框架，并保持与微软合作的灵活性。
未来的AI发展模式：OpenAI的核心目标转向开发支持下一代模型的教师模型，而非依赖传统的模型发布方式。

自我对弈与扩展范式：像o1这样的模型主要目的并非直接部署，而是为下一个模型生成训练数据。
模型小型化与低成本：经过精炼的训练数据可以生成更小、更便宜的模型，这些模型的能力可与更大模型相媲美。
AI递归自我改进：AI模型将通过递归自我改进不断提升性能，形成更强大的智能，摆脱传统发布和更新模式。
AlphaGo式发展路径：如AlphaGo、AlphaZero的演变，未来的AI可能发展成既强大又便宜的系统，能够自动化研发，实现超智能。
OpenAI突破感：OpenAI在AI发展中的乐观态度表明，他们已经突破某些关键门槛，正朝着AGI和超智能迈进，未来的进展将呈指数级增长。

以下是两篇文章的全文翻译：

假设我告诉你，GPT-5确实存在，且不仅仅是存在，而是暗中影响着这个世界，从你看不见的地方开始呢？设想一下：OpenAI已经构建了GPT-5，但将其保留在内部，因为与将其发布给数百万ChatGPT用户相比，内部使用能获得更高的投资回报。而且，他们获得的回报不仅仅是金钱，还有其他方面的利益。这个想法并不复杂，真正的挑战在于将那些暗示它存在的线索串联起来。本文将深入探讨为什么我认为这一切都是合理的。

需要强调的是，这只是我的猜测。虽然有一些公开的证据，但并没有任何泄密或内部传闻确认我的观点。实际上，我正在通过这篇文章构建这个理论，而不仅仅是分享它。我并没有内部消息——即使我有，也会受到保密协议的限制。这个假设之所以引人信服，是因为它合乎逻辑。老实说，除了这个，我还能提供什么更多的线索让这个谣言传得更广呢？

是否原谅我由你来决定。即便我错了——这一点我们早晚会知道——我认为这仍然是一个有趣的侦探练习。我欢迎你在评论中进行讨论，但请保持建设性和深思熟虑。同时，请先完整阅读这篇文章。除此之外，任何辩论都是受欢迎的。

在讨论GPT-5之前，我们有必要关注它的远亲，另一位同样失踪的角色：Anthropic的Claude Opus 3.5。

正如大家所知，三大AI实验室——OpenAI、Google DeepMind和Anthropic——都提供一系列模型，旨在满足不同价格、延迟与性能的需求。OpenAI提供了GPT-4o、GPT-4o mini、o1和o1-mini等选项；Google DeepMind则有Gemini Ultra、Pro和Flash；而Anthropic推出了Claude Opus、Sonnet和Haiku。目标非常明确：尽可能满足不同客户的需求。有些客户优先考虑顶级性能，而其他客户则寻找既实惠又足够好的解决方案。到目前为止，一切都很顺利。

然而，2024年10月，发生了一件奇怪的事情。大家本期待Anthropic发布Claude Opus 3.5，以回应2024年5月发布的GPT-4o。然而，在2024年10月22日，他们发布了更新版的Claude Sonnet 3.5（人们开始称之为Sonnet 3.6）。Opus 3.5却完全没有消息，似乎Anthropic失去了一个与GPT-4o直接竞争的模型。这让人感到困惑。以下是人们讨论的内容以及Opus 3.5实际发生的事情的时间线：

2024年10月28日，我在每周回顾中写道：“[有] 关于Sonnet 3.6的传言称，它是一个失败训练过程中的中间检查点，原本是为备受期待的Opus 3.5。”同样在10月28日，r/ClaudeAI子版块出现了一篇帖子称：“Claude 3.5 Opus已被取消”，并附有一条指向Anthropic模型页面的链接，直到今天，页面上没有提到Opus 3.5。有些人猜测，取消这一版本是为了在即将到来的融资轮次前保持投资者的信任。
2024年11月11日，Anthropic的CEO Dario Amodei在Lex Fridman的播客中澄清了这些传闻，他否认了他们放弃Opus 3.5：“虽然没有给出确切的日期，但据我们所知，计划依然是发布Claude 3.5 Opus。”谨慎且含糊，但有效。

2024年11月13日，彭博社发布了一则报道，确认了之前的传言。文章指出，Anthropic在对3.5版本的评估中发现其表现优于旧版本，但未达到预期效果，尤其是在模型规模和运行成本方面。Dario之所以未给出具体发布日期，正是因为尽管Opus 3.5的训练结果不算失败，但其表现依然令人失望。报道特别强调，关注的焦点是性能与成本的对比，而非单纯的性能。

而在2024年12月11日，半导体专家Dylan Patel及其Semianalysis团队则提供了一个意想不到的转折，他们将所有数据整合成了一幅完整的画面：“Anthropic已完成Claude 3.5 Opus的训练，模型表现良好，扩展也得当，然而未进行公开发布。原因在于，Claude 3.5 Opus主要用于生成合成数据并进行奖励建模，从而显著提升了Claude 3.5 Sonnet的性能，同时还结合了用户数据。”

总结来说，Anthropic确实进行了Claude Opus 3.5的训练，但由于其性能未能足够支撑推理成本，因此放弃了该名称。Dario认为，尝试不同的训练方法可能会带来更理想的结果，因此他未能给出具体的发布时间。彭博社的报道确认了其在性能上优于现有模型，但相较于推理成本，效果却显得不够明显。Dylan及其团队进一步揭示了Sonnet 3.6和Opus 3.5之间的关联：后者被内部利用以生成合成数据，从而提升前者的表现。

如图所示：

利用强大但高昂的模型生成数据，从而增强性能稍逊的小型模型的过程被称为蒸馏（distillation），这一做法已相当普遍。这种技术使得人工智能实验室能够通过蒸馏提升小型模型的表现，超越单靠额外预训练所能达到的效果。

蒸馏技术有多种实现方式，然而我们不打算对此进行深入探讨。需要强调的是，强大的模型作为“教师”，可以将“学生”模型从【小型、便宜、快速】转变为【小型、便宜、快速】+ 强大。蒸馏过程将强大的模型转化为一座金矿。Dylan解释了为何Anthropic选择通过Opus 3.5与Sonnet 3.6的组合进行蒸馏是合理的：

新版Sonnet与旧版Sonnet的推理成本几乎没有显著变化，但模型性能却有所提升。在考虑成本的情况下，发布3.5 Opus并不具备经济合理性，相比之下，继续训练的3.5 Sonnet更具价值。

我们再次回到了成本这一核心问题：蒸馏不仅能够保持低推理成本，还能带来性能提升。这正是对彭博社报道中成本与性能关系的直接回应。Anthropic之所以未选择发布Opus 3.5，除了结果未如预期外，内部用途的价值显然更高。Dylan指出，这也是开源社区迅速超越GPT-4的原因——他们从OpenAI的“金矿”中直接提取了价值。

那么，最令人震惊的发现是什么呢？Sonnet 3.6不仅表现出色，还达到了SOTA水平，甚至超越了GPT-4。通过从Opus 3.5进行蒸馏，Anthropic的中阶模型成功超过了OpenAI的旗舰模型，这很可能与其他因素有关，毕竟在AI领域，五个月的时间是相当漫长的。突然之间，昂贵的成本被证实为高性能的虚假代名词。

那么，“更大就更好”的观点又何在？OpenAI的CEO Sam Altman曾警告这一观念已不再适用。我也曾对此发表过看法。曾几何时，顶尖实验室对他们的知识守口如瓶，停止了数据共享。参数数量已不再是可靠的衡量标准，我们开始明智地转向基准性能。OpenAI最后公开的模型大小为2020年的GPT-3，拥有1750亿个参数。到2023年6月，传言称GPT-4是一个混合专家模型，总计约1.8万亿个参数。Semianalysis随后在详细评估中证实了这一点，得出GPT-4的参数量为1.76万亿，这是在2023年7月的结果。

到了2024年12月，EpochAI的研究员Ege Erdil估算出，领先的AI模型——如GPT-4o和Sonnet 3.6——的规模明显小于GPT-4（尽管它们在基准测试中均超越了GPT-4）：

……当前的前沿模型，如原版GPT-4o和Claude 3.5 Sonnet，可能比GPT-4小一个数量级，4o约有2000亿个参数，而3.5 Sonnet约为4000亿个参数……不过这个估算可能存在较大误差，可能偏差高达2倍，因为这只是初步推算。

他详细阐述了如何得出这一数字，尽管各大实验室未公开任何架构细节，但这并不妨碍我们进行深入探讨。重要的是，趋势正在显现：Anthropic和OpenAI似乎都朝着相似的方向前进。他们的新模型不仅更具优势，而且在规模和成本上都低于上一代产品。我们知道，Anthropic正是通过将Opus 3.5蒸馏到Sonnet 3.6来实现这一目标。那么，OpenAI又采取了何种措施呢？

或许有人会认为，Anthropic的蒸馏策略是由特定情况所驱动的，尤其是Opus 3.5的训练结果不尽理想。但实际上，Anthropic的境况并非个例。Google DeepMind与OpenAI在他们最新训练中也报告了不尽如人意的结果。（值得注意的是，不理想并不代表模型更差。）造成这一现象的原因各不相同，包括数据缺乏带来的收益递减、Transformer架构的固有限制、预训练规模的瓶颈等等。无论如何，Anthropic的独特情况实际上反映了业界的普遍趋势。

然而，回顾彭博社的报道：性能指标的优劣是相对成本而言的。这是否也是另一个共同因素？答案是肯定的，Ege解释了原因：在ChatGPT和GPT-4热潮之后，需求激增。生成式AI的迅速普及导致实验室难以跟上，从而使亏损不断增加。这促使它们着手降低推理成本（训练过程一般是一锤子买卖，但推理成本则随用户数量和使用频率呈比例增长）。如果每周有3亿人使用你的AI产品，那么运营开支可能瞬间变得难以承受。

推动Anthropic将Sonnet 3.6从Opus 3.5中蒸馏出来的因素，无疑对OpenAI产生了深远影响。蒸馏之所以有效，正是因为它将面临的普遍挑战转化为了一种优势：通过提供更小的模型解决推理成本问题，同时避免因性能不佳而引发公众反感，因为较大的模型未被发布。

Ege还指出，OpenAI可能选择了一种替代方案：过度训练。这个概念是用比计算上最优更多的数据对小型模型进行训练：“当推理成为你在模型上支出的重要或主要部分时，使用更多的Token来训练较小的模型是更明智的选择。”然而，过度训练如今已经不再可行。人工智能实验室已经耗尽了高质量的预训练数据源。Elon Musk与Ilya Sutskever最近几周均对此表示认可。

我们再次回到蒸馏的主题。Ege总结道：“我认为，GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型中蒸馏而来的。”

目前为止，所有拼图的碎片都暗示，OpenAI正在以与Anthropic对Opus 3.5所采取的方式（训练并隐藏）相同的方式（蒸馏）进行运作，并出于相似的原因（糟糕的结果和成本控制）。这是一个令人振奋的发现。然而，值得注意的是，Opus 3.5仍然被隐藏。OpenAI的类似模型又在哪里呢？是否藏在公司的某个角落？你能猜到它的名字吗……？

在撰写这篇分析时，我的起点是研究Anthropic的Opus 3.5故事，因为这是我们掌握信息最多的案例。接着，我通过蒸馏的概念将其与OpenAI联系起来，并探讨推动Anthropic的基本力量同样影响着OpenAI。然而，我们的理论中出现了一个新障碍：由于OpenAI是行业先行者，他们可能面临着Anthropic等竞争对手尚未遭遇的挑战。

其中一个挑战是训练GPT-5所需的硬件要求。Sonnet 3.6可以与GPT-4o抗衡，但其发布延迟了五个月。我们应假设GPT-5处于一个全新的层次，要求更高、规模更大。不仅推理成本增加，训练成本也将大幅上升。我们可能正在谈论高达五亿美元的训练费用。使用现有硬件，是否能够实现这一目标？

Ege再次出手救场，认为是可行的。为3亿人提供这样一个巨型模型的服务是无法承受的，但训练方面却是“轻而易举”：

原则上，即使是我们现有的硬件，也足以支持训练比GPT-4更大的模型；例如，GPT-4的50倍版本，拥有约100万亿个参数，能够以每百万输出Token3000美元、每秒输出10-20个Token的速度进行服务。然而，要使这种规模可行，这些大模型必须为使用者创造大量经济价值。

然而，支付如此高昂的推理费用，对微软、谷歌或亚马逊（OpenAI、DeepMind和Anthropic的资助者）来说，显然是不划算的。那么，他们又该如何解决这一问题呢？答案很简单：如果他们打算向公众提供几万亿参数的模型，就必须“释放大量的经济价值”。但目前显然并不打算如此。

他们对模型进行了训练，并发现其“表现优于当前产品”。然而，他们不得不承认，模型“尚未取得足够进展，无法证明维持其运行的高昂成本是合理的”。这个观点让人不禁想起一个月前《华尔街日报》对GPT-5的描述，彭博社对Opus 3.5的评价也与此相似。

他们所报告的结果令人失望（尽管准确性多少可以调整），他们总能在叙述中进行修饰。最终，他们决定将其作为大型教师模型，用于提炼出更小的学生模型。随后，这些模型被发布，像Sonnet 3.6和GPT-4o等新产品随之问世，让人欣喜的是，它们价格实惠且性能良好。即使我们对Opus 3.5和GPT-5的期待不断攀升，但他们的收益依然如金矿般闪耀。

当我深入研究时，仍然感到不完全信服。确实，所有迹象表明OpenAI的举动合乎逻辑，但合理性与事实之间总有一段距离。我不会为你弥补这一鸿沟——这毕竟只是推测。然而，我可以进一步支持这个论点。

是否有其他证据显示OpenAI以这种方式运作？除了不尽如人意的性能和日益加剧的亏损，他们是否还有其他原因来推迟GPT-5的发布？从OpenAI高管公开的关于GPT-5的言论中，我们能获取哪些信息？在反复推迟模型发布的过程中，他们是否冒着损害声誉的风险？毕竟，OpenAI是人工智能革命的先锋，而Anthropic则在其庇护下运作。Anthropic可以这样做，但OpenAI呢？或许并非如此简单。

谈到资金问题，让我们深入了解OpenAI与微软的合作细节。首先，有一个众所周知的事实：AGI条款。在OpenAI关于其结构的博客中，他们列出了五项治理条款，阐明了其运作方式、与非营利组织的关系、董事会的职能以及与微软的合作关系。第五条款将AGI定义为“在大多数经济价值领域超越人类的高度自治系统”，规定一旦OpenAI董事会宣布达成AGI，该系统将不再受知识产权许可及与微软的其他商业条款的约束，微软只适用于AGI之前的技术。

显然，两家公司都不希望合作关系破裂。OpenAI虽然制定了这一条款，但会竭尽所能避免遵守。其中一种方式就是推迟发布可能被认定为AGI的系统。“但GPT-5肯定不是AGI，”你可能会说。而我则指出，有一个鲜为人知的事实：OpenAI与微软有一个关于AGI的秘密定义，尽管这个定义在科学上无关紧要，但在法律上界定了他们的合作关系：AGI是一个“能够创造至少1000亿美元利润的AI系统。”

如果OpenAI假设性地推迟发布GPT-5，以“尚未准备好”为借口，他们将实现控制成本和防止公众反响的同时，避免对是否达成AGI的声明。尽管1000亿美元的利润是一个庞大的数字，但没有什么能阻止雄心勃勃的客户在此基础上获得如此利润。另一方面，让我们明确：如果OpenAI预计GPT-5能带来每年1000亿美元的经常性收入，他们便不会犹豫触发AGI条款，与微软分道扬镳。

公众对OpenAI不发布GPT-5的反应，大多基于一个假设，即其不发布是因为模型不够优秀。即便这是事实，也没有人停下来思考OpenAI是否有一个比外部市场需求更为优越的内部用例。在开发出一个优秀模型与创造一个可以以低成本服务于3亿人的模型之间，有着巨大的差别。如果你无法做到，那就放弃。但如果你不需要做到，那就不必去做。曾几何时，他们为了获取我们的数据而提供最佳模型，而现在情况已然不同。他们不再追求我们的资金，那是微软的责任。他们的目标是AGI，进而是ASI（超人工智能）。他们渴望的是留下遗产。

我们接近结尾。相信我已经列举了足够的论据，足以支撑这一观点：OpenAI很可能已经在内部完成了GPT-5，正如Anthropic完成了Opus 3.5一样。甚至可以合理推测，OpenAI可能根本不会发布GPT-5。当前公众对性能的评估，不再单纯是与GPT-4o或Claude Sonnet 3.6的对比，而是与o1和o3的比较。随着OpenAI探索测试时间扩展法则，GPT-5所需达到的标准也在不断提高。它们如何能够发布一个真正超越o1、o3以及即将推出的o系列模型的GPT-5？而且，他们如今不再需要我们的资金或数据。

对OpenAI而言，训练新的基础模型——如GPT-5、GPT-6等——总是有意义的，但不一定以产品形式发布。这样的时代或许已经结束。现在唯一重要的目标是为下一代模型持续生成更优质的数据。从今往后，基础模型可能在后台默默运作，支持其它模型完成其独立无法实现的任务——就像一位隐士在秘密的山洞中传递智慧，唯一不同的是，这个山洞是一个庞大的数据中心。无论我们是否见到他，我们都将经历他智慧带来的影响。

即使GPT-5最终发布，这一事实似乎也变得无关紧要。如果OpenAI与Anthropic真正开启了递归自我改进的进程（尽管人类仍在其中发挥作用），那么无论他们发布什么给我们，都不再重要。他们会越走越远，仿佛宇宙在迅速膨胀，以至于遥远的星系光芒再也无法抵达我们。

或许，这就是OpenAI在短短三个月内，从o1跃升至o3的原因。或许这就是他们跳跃到o4和o5的方式。这也许解释了他们近期在社交媒体上的激动。因为他们已经实施了一种新的改进运作模式。

你真的认为接近AGI意味着能够随时掌控日益强大的AI吗？他们会将每一次进步都公之于众吗？当然不可能。正如他们所言，他们的模型将使他们走得太远，以至于他人无法追赶。每一代新模型都是冲破逃逸速度的引擎。从平流层俯看，他们已经向我们挥手告别。

现在尚不清楚，他们是否会回归。

第二部分，Gwern Branwen的观点：

我认为这里缺少了自我对弈扩展范式的一个重要元素：像o1这样的模型主要目标并非是部署，而是为下一个模型生成训练数据。o1所解决的每个问题现在都成为o3的训练数据点（例如，任何o1会话找到的正确答案，都可以经过精细处理，去除无效信息，生成干净的转录文本，以训练更精细的直觉）。这意味着这种扩展范式最终可能与当前的训练时间范式非常相似：大量大型数据中心辛勤工作，训练出一个前沿模型，代表着最高的智能，这个模型通常以低搜索的方式使用，并转化为更小、更便宜的模型，用于那些低/无搜索的应用场景。在这些大型数据中心，工作负载可能几乎完全与搜索相关（因为实际微调相较发布新模型更为便宜且容易），但这对其他人并无实质意义；就像以前一样，你看到的基本上是高端GPU和兆瓦的电力投入，等三到六个月，一款更智能的AI便会问世。

事实上，我对OpenAI至少发布o1-pro而非将其保密，转而将计算资源投入更多o3训练等启动工作，感到有些惊讶。（显然，这正是Anthropic和Claude-3.6-opus所经历的事情——它并没有“失败”，他们只是选择保持私密，将其提炼成小而便宜但异常聪明的Claude-3.6-sonnet。）

如果你想知道为什么OpenAI的员工在推特上突然显得异常兴奋，看从最初的4o模型到o3（以及现在它所处的位置！）的改进，可能就是原因。这就像是在观察AlphaGo的Elo曲线：它只会不断上升… 一直上升… 一直上升…

或许他们有一种突破的感觉，终于跨越了最后的临界门槛，从仅仅是每个人几年后会复制的前沿AI工作，迈向起飞——打破了智能的界限，达到了递归自我改进的阶段。在o4或o5之后，能够自动化AI研发，完成剩下的部分：Altman在2024年11月表示，“我能看到一条道路，按照我们的工作，我们的进展将会持续复合，过去三年取得的成就将继续，不论是三年、六年，还是九年，或其他任何时间”，而现在则变成了一个星期前的表述，“我们现在有信心知道如何构建我们传统理解中的AGI… 我们开始将目标放得更远，超智能，真正的超智能。我们喜欢当前的产品，但我们是为辉煌的未来而来。凭借超智能，我们可以做到任何事情。”（让DeepSeek去追逐他们的尾灯吧；一旦超智能研究能够自给自足，他们就无法获得所需的大型计算机来竞争，这简直是字面上的。）

然后你就可以实现“两全其美”：最终的AlphaGo/Zero模型不仅超越人类智慧，而且运行成本极低。（只需搜索几个棋步，就能达到超人类水平；即便是单步前传也能接近职业人类水平！）

如果你看看相关的扩展曲线——我再次建议阅读Jones 2021*——原因便变得显而易见。推理时的搜索如同兴奋剂，能迅速提升你的分数，但很快就会趋于平稳。很快，你需要更智能的模型来改善搜索本身，而不仅仅是增加搜索的数量。（如果仅靠搜索能成功，那么国际象棋早在1960年代就该被解决。与每秒钟能搜索若干步棋的国际象棋大师相比，搜索更多的位置并不难。如果你想得到“Hello World”文本，几只猴子在打字机上或许能做到很便宜；但如果你想得到《哈姆雷特》全文，最好还是开始克隆莎士比亚。）幸运的是，你手头有训练数据和模型，可以用来创造一个更智能的模型…

Sam Altman（2024年12月20日）：

在今天的喧嚣中，有些内容似乎被忽视了：
在许多编码任务中，o3-mini将以巨大的成本降低超越o1！

探讨AI模型性能提升的经济性与可持续性

我认为这一趋势在未来仍将持续，但通过巨幅增加的投入来实现边际性能的提升，这一方式将显得颇为令人困惑。

值得一提的是，投入资金能够在某些输出中改善模型表现。然而，这里的“你”可能指的是“AI实验室”，因此花费的金钱实际上是用于增强模型本身，而不仅仅是为了解决某一特定的临时问题。

这表明，外部观察者可能难以获取中间模型的数据，就像围棋高手无法目睹AlphaZero在训练过程中的随机检查点一样。如果真的存在“部署成本比现在高出千倍”的情况，这正是选择不进行部署的原因之一。为何要浪费计算资源为外部客户提供服务？不如继续训练并提炼结果，最终会形成一个部署成本仅为最初100倍、接着是10倍，甚至1倍，最后低于1倍的更高效模型。

因此，当考虑到所有的二阶效应和新的工作流程时，搜索和测试的范式可能会显得极为熟悉。也许现在是时候重新审视AlphaZero和MuZero的训练与部署过程，以及计算机在围棋和国际象棋中的后续表现，以此作为一种前兆。

*与此相关的Jones比此处提到的其他文献（如Snell）更具参考价值，因为Snell设想的是一个静态、固定的模型，关注的是平均表现而非最复杂的情况。尽管解决最难的问题往往具有最高的经济价值，但简单问题的解决并不会带来太多收益，即使能以更低的成本完成。在这种情况下，重复使用小而简单、便宜的模型来处理简单问题，可能会超越一个固定的大模型。然而，这并不涉及长期的动态训练，因为你正在持续训练新的模型。这一观点类似于曾经流行的“过度训练小模型是计算最优的”理论，但这一观点建立在明显错误的假设上，即假设无法提炼、量化或剪枝大模型。实际上，这些都是可行的。

来源：知乎

原文标题：OpenAI 被曝训出 GPT-5，但选择雪藏，消息真实性有多大？GPT-5 真如预期中那么强大吗？ – 潘达儿王的回答

原文链接：https://www.zhihu.com/question/9909661585/answer/82317556263

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完