传闻OpenAI已训练出GPT-5，却选择隐秘处理：真相如何？它真的如大家期待的那样强大吗？

没有评论

共计 11448 个字符，预计需要花费 29 分钟才能阅读完成。

种种迹象显示，OpenAI最近似乎经历了一场重大变革。

AI研究者Gwern Branwen撰写了一篇关于OpenAI的o3、o4、o5模型的文章。

他指出，OpenAI已突破某个关键节点，达到了“递归自我改进”的阶段——o4和o5能够实现AI研发的自动化，完成剩余的任务！

文章的主要内容包括：

OpenAI可能会选择对其“o1-pro”模型采取保密策略，利用其计算能力训练更先进的o3模型，这与Anthropic的策略相似；
OpenAI或许相信他们在AI领域取得了重要进展，正在朝着ASI的方向迈进；
目标是开发一种高效运作的超智能AI，类似于AlphaGo/Zero的目标；
推理时的搜索虽然能提升性能，但最终会遇到瓶颈。

甚至有传言称，OpenAI与Anthropic已成功训练出GPT-5级别的模型，但二者都选择了将其隐藏。

之所以如此，是因为虽然模型能力很强，但运营费用过高，利用GPT-5去蒸馏出GPT-4o、o1、o3等模型则更具经济效益。

此外，OpenAI的安全研究员Stephen McAleer在最近两周的推文中，表达的看法简直像是一部短篇小说：

我怀念以前进行AI研究的日子，那时我们对如何创造超级智能一无所知。

在前沿实验室，很多研究人员认真对待AI短期效应，而实验室外几乎没人充分探讨其安全性。

如今，控制超级智能已经成为紧迫的研究课题。

我们该如何应对狡猾的超级智能？即使有完美的监控工具，它是否会说服我们将其放出沙箱？

总的来看，越来越多的OpenAI员工暗示他们正在内部开发ASI。

这一切是真的吗？还是说CEO奥特曼的“谜语人”风格已经被下属模仿了呢？

许多人认为，这可能是OpenAI的一种惯常炒作手法。

然而，令人不安的是，几位一两年前离开的人士曾表达过担忧。

难道我们真的已经站在ASI的边缘？

OpenAI被曝训出GPT-5，但雪藏

最近关于GPT-5的讨论引起了广泛关注，第一篇是Alberto Romero撰写的《有关GPT-5的传闻将改变一切》，第二篇则是Lesswrong上讨论推理扩展对AI安全性影响的文章。在这篇文章的评论区，Gwern Branwen发表了一段长回复。

这两篇文章的核心观点基本相同，都提到OpenAI和Anthropic内部已经开发出更强大的模型，但并未公开发布，原因在于考虑到公众使用的成本，最佳方法是利用强大模型生成合成数据，通过蒸馏提高小型模型的性能。这意味着AI模型将通过递归自我改进不断增强智能，摆脱传统的发布与更新模式。

我认为这一观点的可能性相当高。Sam Altman今天宣布即将推出o3-mini，并在评论区回答了关于GPT-5和o系列模型的提问：

根据他的说法，尽管GPT-5的发布日期和性能尚未确定，但用户将会感到满意。预计在2025年将尝试将GPT系列与o系列进行整合。

GPT-5存在但未发布：假设GPT-5已经完成训练，但OpenAI未公开发布，原因在于内部使用的投资回报率远高于向数百万用户发布。
蒸馏过程：OpenAI及其他实验室（如Anthropic）利用强大模型生成合成数据，通过蒸馏方法提升小型模型的性能。
成本与性能考量：由于GPT-5及其他大型模型的成本过高，OpenAI可能选择内部使用而非公开发布，类似于Anthropic的Claude 3.5。
AI的发展趋势：AI模型趋向于小型化和便宜化，同时保持高性能，以降低推理成本。OpenAI或许在等待更理想的发布时机。
AGI与商业目标：OpenAI可能推迟GPT-5的发布，以避免触发AGI的法律框架，并与微软的合作保持灵活性。
未来的AI发展模式：OpenAI的核心目标正在向开发支持下一代模型的教师模型转变，而非依赖传统的模型发布。

自我对弈与扩展范式：如o1模型的主要目的并非直接部署，而是通过生成训练数据来优化下一个模型。
模型小型化与低成本：经过精炼的训练数据可以生成更小、更便宜的模型，这些模型的能力与更大模型相当。
AI递归自我改进：AI模型将通过递归自我改进不断提升性能，形成更强大的智能，摆脱传统的发布与更新模式。
AlphaGo式发展路径：像AlphaGo、AlphaZero的演变一样，未来的AI可能会发展成既强大又经济的系统，能够自动化研发，实现超智能。
OpenAI突破的信号：OpenAI对AI发展的乐观表态显示他们已突破一些临界点，正朝向AGI与超智能迈进，未来的发展将是指数级的。

以下附上两篇文章的全文翻译：

如果我告诉你GPT-5不仅存在，而且还在悄然改变着世界，你会怎么想？这里有一个假设：OpenAI已经构建了GPT-5，但将其保留在内部，因为与将其发布给数百万ChatGPT用户相比，内部使用的回报更为丰厚。而且，他们获得的回报并不仅仅是金钱，而是其他更重要的东西。这个想法本身并不复杂；挑战在于将所有线索串联起来。这篇文章将深入探讨，为什么我认为这一切都有其合理性。

我想强调，这纯粹是推测。虽然有一些公开的证据，但并没有泄漏或内部传闻确认我的猜想是对的。事实上，我在这篇文章中构建这一理论，而不仅仅是分享它。我没有内部信息——即使我有，我也会签署保密协议。这个假设之所以吸引人，是因为它合理。老实说，除了这个，我还能提供什么更多的线索让这个谣言传得更广呢？

这就由你来决定是否原谅我了。即使我错了——我们迟早会知道——我认为这也是一个有趣的侦探练习。我欢迎你在评论中进行猜测，但请保持建设性与深思熟虑。同时，请先完整阅读这篇文章。任何辩论都是受欢迎的。

在讨论GPT-5之前，我们需要关注它的近亲，另一个同样失踪的模型：Anthropic的Claude Opus 3.5。

众所周知，三大AI实验室——OpenAI、Google DeepMind和Anthropic——提供一系列模型，旨在满足不同的价格、延迟与性能需求。OpenAI提供了如GPT-4o、GPT-4o mini、o1和o1-mini等选项；Google DeepMind则提供Gemini Ultra、Pro和Flash；而Anthropic则有Claude Opus、Sonnet和Haiku。目标明确：尽可能满足多样化的客户需求。一些客户优先考虑顶级性能，尽管成本高昂，而其他客户则寻求性价比高的解决方案。迄今为止，一切都很顺利。

然而，2024年10月，发生了一件奇怪的事情。大家原本期待Anthropic发布Claude Opus 3.5，以回应2024年5月发布的GPT-4o。然而，2024年10月22日，他们发布了升级版的Claude Sonnet 3.5（人们开始称之为Sonnet 3.6）。而Opus 3.5却消失得无影无踪，仿佛Anthropic失去了一个与GPT-4o直接竞争的模型。这究竟是怎么回事？以下是人们讨论的内容以及Opus 3.5实际发生的事情的时间线：

2024年10月28日，我在每周回顾中提到：“关于Sonnet 3.6的传言称，它是一个失败训练过程中的中间产物，原本是为了备受期待的Opus 3.5。”同样在10月28日，一个帖子出现在r/ClaudeAI的子版块：“Claude 3.5 Opus已被取消”，并附上指向Anthropic模型页面的链接，直到今天，页面上依然没有提到Opus 3.5。有人猜测，取消这一版本是为了在即将到来的融资轮次之前维护投资者的信心。
2024年11月11日，Anthropic的CEO Dario Amodei在Lex Fridman的播客中澄清了这些传闻，他否认了放弃Opus 3.5：“虽然没有给出确切的日期，但据我们所知，计划依然是发布Claude 3.5 Opus。”这虽然谨慎含糊，却有效。

2024年11月13日，彭博社报道确认了关于Anthropic的传闻，指出在训练后，尽管3.5 Opus在评估中表现优于之前的版本，但依旧未达到预期。这表明，尽管模型的训练没有失败，但其结果却令人失望。Dario之所以不透露具体发布日期，正是因为该模型的表现与运行成本的比较使其显得不够理想。

而在2024年12月11日，半导体专家Dylan Patel及其Semianalysis团队提供了新的见解，揭示了一个引人注目的反转：“Anthropic已完成Claude 3.5 Opus的训练，模型表现良好，且扩展得当……然而，Anthropic并未选择发布它，而是在内部利用该模型生成合成数据并进行奖励建模，从而显著提升了Claude 3.5 Sonnet的性能，并结合了用户数据。”

总结而言，Anthropic确实完成了Claude Opus 3.5的训练，但因其性能未能合理支撑推理成本而放弃了这一名称。Dario认为，未来可能会有更好的训练结果，因此他选择不具体说明发布时间。彭博社的确认则指出，尽管3.5 Opus的性能优于现有模型，但与推理成本相比，其效果并不显著。Dylan和团队进一步揭示了Sonnet 3.6与Opus 3.5之间的内在联系：后者在内部被用于生成合成数据，以提升前者的表现。

如图所示：

使用高性能、成本昂贵的模型生成数据，以提升稍微弱一些、价格更低模型性能的过程，被称为蒸馏（distillation）。这一做法在人工智能领域相当普遍，能够帮助实验室通过蒸馏手段，改善小型模型的性能，超越仅通过额外预训练所能取得的效果。

蒸馏方法有多种，但我们在此不作深入探讨。关键在于，强大的模型担任“教师”，将“学生”模型从【小型、便宜、快速】的状态提升至【小型、便宜、快速】加上强大的性能。通过蒸馏，强大的模型被转化为珍贵的资源。Dylan解释了为什么Anthropic通过Opus 3.5与Sonnet 3.6的配对来进行蒸馏是合理的：

新版Sonnet与旧版Sonnet的推理成本没有显著差异，但模型的表现却发生了变化。考虑到成本问题，为什么还要发布3.5 Opus，显然在经济上并不划算，相比之下，发布经过3.5 Opus持续训练的3.5 Sonnet显得更具价值？

我们再次回到成本的问题：蒸馏过程不仅可以保持较低的推理成本，还能提升模型性能。这为彭博社报道中提到的主要问题提供了直接的解决方案。Anthropic选择不发布Opus 3.5，除了结果不令人满意外，内在的价值反而更为重要。（Dylan指出，这也是为何开源社区能迅速超越GPT-4的原因——他们直接从OpenAI的资源中汲取了丰富的经验。）

最引人注目的发现是什么？Sonnet 3.6不仅表现出色，更是达到了SOTA，甚至超越了GPT-4o。通过对Opus 3.5的蒸馏，Anthropic的中级模型超越了OpenAI的旗舰产品，而这很可能也与其他因素有关，毕竟在人工智能领域，五个月可谓是一个漫长的时间。突然之间，高成本不再是高性能的真正标志。

那么，“更大就一定更好”的说法又如何解释？OpenAI的CEO Sam Altman曾警告这一观点已然过时。我们也对此进行了探讨。曾几何时，顶尖实验室因嫉妒而守护他们的研究成果，停止了数据共享。如今，参数数量已不再是可靠的衡量标准，我们愈发重视基准测试的表现。OpenAI最近披露的模型大小为2020年的GPT-3，拥有1750亿个参数。而到2023年6月，传闻称GPT-4是一种专家混合模型，总计约1.8万亿个参数。Semianalysis随后在详细评估中证实了这一点，得出GPT-4的参数约为1.76万亿。这是发生在2023年7月的事情。

直到2024年12月，EpochAI的研究员Ege Erdil估算出，领先的AI模型，包括GPT-4o和Sonnet 3.6，明显小于GPT-4（尽管它们在基准测试中都表现优于GPT-4）：

……当前前沿模型，如原版GPT-4o和Claude 3.5 Sonnet，参数量可能比GPT-4小一个数量级，4o约有2000亿个参数，3.5 Sonnet约为4000亿个参数……不过这一估算可能存在较大偏差，可能有2倍的误差，因为我是通过粗略的方式得出的。

他详细解释了得出这一数字的过程，尽管各大实验室未公布任何架构细节，但这并不影响我们的理解。重要的是，雾霾逐渐散去：Anthropic和OpenAI似乎都在朝着相似的方向发展。他们的新模型不仅性能更佳，同时相比前一代也更小、更便宜。我们知道，Anthropic通过将Opus 3.5蒸馏至Sonnet 3.6来实现这一点。那么，OpenAI又做了什么呢？

或许有人认为，Anthropic的蒸馏策略是特定情况下的选择——也就是Opus 3.5的训练结果不尽如人意。但实际上，Anthropic的经历并非孤例。Google DeepMind和OpenAI在其最新的训练中也报告了不尽人意的结果。（需注意，不理想并不等同于模型更差。）造成这种情况的原因多种多样：收益递减、Transformer架构的固有限制、预训练规模法则的瓶颈等。这些问题并非个别现象，Anthropic面临的挑战在整个行业中普遍存在。

然而，彭博社的报道强调了性能指标的好坏是相对成本而言的。这是否也是一个共同的因素？答案是肯定的。Ege解释了原因：在ChatGPT/GPT-4热潮之后，市场需求激增。生成式AI的迅速流行使得实验室们难以跟上，随之而来的是持续增长的亏损。面对这种局面，他们不得不着手降低推理成本（训练过程是一次性投入，但推理成本会随着用户数量和使用量的增加而成比例增长）。如果每周有3亿人使用你的AI产品，运营支出就可能瞬间变得不可承受。

无论是什么原因促使Anthropic将Sonnet 3.6从Opus 3.5中蒸馏而出，这一行为对OpenAI产生了深远的影响。蒸馏之所以有效，正是将这两个普遍存在的挑战转化为优势：通过提供更小的模型来解决推理成本问题，并避免因性能不佳而引发的公众反感，因为较大的模型并未被发布。

Ege进一步指出，OpenAI或许选择了一种替代策略：过度训练。这一思路是使用比计算上最优更多的数据进行训练小型模型：“当推理成为模型支出的重要或主导部分时，最佳方案是用更多的Token来训练较小的模型。”然而，过度训练如今已经不再可行。人工智能实验室已经耗尽了高质量的预训练数据源。Elon Musk和Ilya Sutskever最近几周对此表示了认同。

我们再次回到蒸馏的讨论。Ege总结道：“我认为，GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型中蒸馏而来的。”

迄今为止，所有拼图碎片都表明，OpenAI正在以与Anthropic对Opus 3.5所采取的相似方式（进行训练并隐藏）进行操作，并出于相同的原因（糟糕的结果及成本控制）。这是一个重要发现。然而，Opus 3.5仍然处于隐藏状态。OpenAI的类似模型又在哪里呢？它是否藏在公司某个不起眼的角落？你能猜到它的名字吗……？

在开始这篇分析时，我关注于Anthropic的Opus 3.5故事，因为这是我们掌握信息最多的案例。随后，我通过蒸馏的概念将其与OpenAI的情况联系起来，并说明推动Anthropic的动力同样在推动OpenAI。然而，我们的理论遇到了一个新的障碍：由于OpenAI是先行者，他们可能面临着Anthropic等竞争对手尚未遭遇的挑战。

其中一个障碍便是训练GPT-5所需的硬件要求。Sonnet 3.6可与GPT-4o相媲美，但其发布时却有五个月的时间差。我们应当假设，GPT-5将处于一个更高的层次，强大而庞大。同时，推理成本和训练成本都将显著增加。我们可能谈论的是高达五亿美元的训练费用。在现有硬件条件下，这是否可行？

Ege再次提供了答案：是的。为3亿人提供这样一个巨型模型的服务成本是无法承受的。但训练呢？

从原则上讲，即便是我们目前的硬件也足以支持训练比GPT-4更大的模型：例如，GPT-4的50倍规模版本，拥有大约100万亿个参数，可能能够以每百万输出Token3000美元、每秒输出10-20个Token的速度进行服务。然而，为了使这种规模变得可行，这些大模型必须为使用者提供显著的经济价值。

然而，花费如此巨额的推理费用，对于微软、谷歌或亚马逊（OpenAI、DeepMind和Anthropic的资金支持者）来说，是不划算的。那么他们将如何解决这个问题呢？答案很简单：如果他们计划向公众推出几万亿参数的模型，他们就需“释放出相应的经济价值”。但他们并不打算这么做。

OpenAI的未来：在AGI与市场需求之间的抉择

他们对模型进行了训练，意识到该模型“相较于当前产品表现更为出色”。然而，他们也不得不承认，“进展尚不足以证明维持其运行的高昂成本是合理的。” 这句话是否听起来耳熟？正如《华尔街日报》一个月前对GPT-5的评论，与彭博社关于Opus 3.5的观点如出一辙。

他们对结果进行了反馈，尽管令人失望（准确性或多或少都有待提升，他们总能在这里调整叙述）。最终，他们将其作为大型教师模型，帮助培训更小的学生模型，并随后公开发布这些模型。于是，Sonnet 3.6和GPT-4o等新模型相继问世，令人欣喜的是，它们既便宜又表现良好。尽管我们的期待不断升温，Opus 3.5和GPT-5的预期却依然不变，而他们的财务状况则如同金矿般闪耀。

在深入研究到这一阶段时，我并未完全信服。确实，现有证据表明这对OpenAI来说似乎是合理的，但合理性与事实之间始终存在差距。我不会为您填补这一空白——毕竟，这只是我的推测。不过，我可以进一步加强这一观点。

还有其他证据表明OpenAI采取了这样的运作模式吗？除了业绩不佳和持续增加的亏损，他们还有其他理由推迟发布GPT-5吗？从OpenAI高管公开的关于GPT-5的声明中，我们能获取哪些信息？在他们一再推迟模型发布时，是否冒着损害声誉的风险？毕竟，OpenAI是人工智能革命的先锋，而Anthropic则在其阴影下运作。Anthropic能够如此行事，但OpenAI又如何？或许并非如想象中那样简单。

谈到资金问题，让我们深入探讨OpenAI与微软合作的细节。首先，大家熟知的AGI条款。在OpenAI关于其结构的博客中，他们列出了五项治理条款，阐明了其运作方式、与非盈利组织的关系、董事会以及与微软的合作关系。第五条款将AGI定义为“一个在大多数经济价值工作中超越人类的高度自治系统”，并规定一旦OpenAI董事会宣布达成AGI，“该类系统将不再适用知识产权许可及与微软的其他商业条款，微软仅适用于AGI之前的技术。”

无需多言，双方都不希望合作关系破裂。OpenAI制定了这一条款，但会尽力避免遵守它。一种可能的策略便是推迟发布可能被标记为AGI的系统。“但GPT-5肯定不是AGI，”你或许会说。我则想指出一个鲜为人知的事实：OpenAI与微软有一个关于AGI的秘密定义，尽管科学上无关紧要，但法律上却界定了他们的合作关系：AGI是一个“能够产生至少1000亿美元利润的AI系统”。

假设OpenAI推迟发布GPT-5，声称其尚未准备好，那他们就能同时实现成本控制和避免公众反响的目的：他们可以规避是否达到AGI分类的声明。尽管1000亿美元的利润目标极为庞大，但并没有什么能够阻止雄心勃勃的客户在此基础上实现利润。另一方面，我们必须明确：如果OpenAI预期GPT-5能每年创造1000亿美元的收入，他们并不会在乎触发AGI条款而与微软分道扬镳。

公众对OpenAI不发布GPT-5的反应，往往基于一个假设：他们不发布是因为模型性能不够。即便这一点成立，也没有人停下来思考OpenAI是否存在一个比外部市场需求更好的内部用途。创造一个优秀的模型与创建一个能够低成本服务于3亿人的优秀模型之间，差异巨大。如果无法实现，便不予考虑；但如果不需要去做，他们自然也不会。这些年来，他们曾向我们提供最好的模型，原因在于他们需要我们的数据。而如今，这种情况已不复存在。他们不再渴求我们的资金，那是微软的事情。他们追求的是AGI，随后是ASI（超人工智能）。他们所想要的是遗产。

我们接近结尾。我相信我已经列出了足够的论据，以支撑一个有力的案例：OpenAI很可能已经在内部完成了GPT-5，正如Anthropic完成了Opus 3.5一样。甚至可以合理推测，OpenAI根本不会发布GPT-5。公众在评估性能时，不仅仅是对比GPT-4o或Claude Sonnet 3.6，而是与o1/o3进行比较。随着OpenAI探索延长测试时间的法则，GPT-5需要满足的标准也在不断提高。他们怎能发布一个真正超越o1、o3和即将到来的o系列模型的GPT-5呢？而且，现在他们已经不再需要我们的资金或数据。

训练新的基础模型——如GPT-5、GPT-6等——对OpenAI而言总是有意义的，但未必是为了将其作为产品发布。这样的时代可能已经结束。现阶段，他们唯一看重的目标便是不断为下一代模型生成更优质的数据。未来，基础模型可能会在后台运作，支撑其他模型完成它们无法独立完成的任务——就像一位隐士在秘洞中传递智慧，唯一不同的是，这个洞穴是一个巨大的数据中心。无论我们是否能见到他，我们都会感受到他智慧带来的影响。

即使GPT-5最终发布，这一事实似乎也显得几乎无关紧要。如果OpenAI和Anthropic确实启动了递归自我改进的程序（尽管人类仍在其中扮演角色），那么无论他们发布给我们的产品如何，重要性已不再。随着时间推移，他们将越走越远——如同宇宙膨胀至远方星系的光线再也无法抵达我们。

也许这就是OpenAI在短短三个月内，从o1跃升至o3的原因。或许这也是他们计划跃升至o4和o5的方式。这可能是他们最近在社交媒体上表现出极大兴奋的原因，因为他们已经实施了一种新的改进运作模式。

你真的认为接近AGI意味着能够随时掌控日益强大的AI吗？他们会将每一次进步都公开供我们使用吗？你当然不相信这样吧。正如他们所言，他们的模型将使他们走得太远，超出他人的追赶能力。每一代新模型都是逃逸速度的引擎。从平流层看，他们已经在向我们挥手告别。

如今，我们尚不清楚他们是否会回归。

第二篇，Gwern Branwen的观点：

我认为在自我对弈扩展范式中，缺少了一个重要部分：像o1这样的模型并非主要为部署而生，而是为下一个模型生成训练数据。o1解决的每一个问题现已成为o3的训练数据点（例如，任何o1会话最终找到正确答案，都能经过提炼，去除无效内容，生成干净的转录文本，以训练更精细的直觉）。这意味着扩展范式最终可能与当前的训练时间范式相似：大量大型数据中心辛勤工作，训练出一个最终的前沿模型，展现最高智能，通常会在低搜索的情况下使用，并转化为更小、更便宜的模型，适用于那些低/无搜索仍然过度的应用场景。在这些大型数据中心，工作负载几乎完全与搜索相关（因为相比推出模型，实际的微调更为便宜且简单），但这对其他人来说并不重要；如同以前一样，你看到的基本上是高端GPU和大量电力投入，等上三到六个月，一款更智能的AI便会问世。

我确实有些惊讶OpenAI至少发布了o1-pro，而不是将其保密，并将计算资源投入更多的o3训练等启动工作。（显然，这正是Anthropic和Claude-3.6-opus所经历的情况——它并没有“失败”，他们只是选择保持私密，并将其提炼成一个小而便宜但异常聪明的Claude-3.6-sonnet。）

如果你想知道为何OpenAI员工在Twitter上突然显得异常而充满乐观，看看从最初的4o模型到o3（以及现在它所处的位置！）的改进，或许就是原因。这就像是在观看AlphaGo的Elo曲线：它只会持续上升… 一直上升… 一直上升…

或许他们感觉自己已经“突破”了最后的临界门槛，完成了从仅仅是每个人几年后都会复制的前沿AI工作，到起飞——破解了智能，达到了递归自我改进的阶段，之后的o4或o5将能够自动化AI研发，完成剩余部分：Altman在2024年11月表示，“我能看到一条道路，按照我们的工作进展将不断复合，过去三年的进展将持续下去，无论是三年、六年，还是九年，或其他任何时间”，转变为一周前的言论，“我们现在有信心知道如何构建我们传统理解中的AGI… 我们开始将目标放得更远，超智能，真正意义上的超智能。我们喜欢当前的产品，但我们是为辉煌的未来而来。凭借超智能，我们可以做任何事情。”（让DeepSeek去追逐他们的尾灯吧；一旦超智能研究实现自给自足，他们将无法获得所需的大型计算机来竞争，简直是字面上的。）

然后你就可以“两全其美”：最终的AlphaGo/Zero模型不仅是超人类的，而且非常便宜也能运行。（只需搜索几个棋步，就能达到超人类的水平；即使是单步前传也能接近职业人类水平！）

如果你查看相关的扩展曲线——我再次建议阅读Jones 2021*——原因就变得显而易见。推理时的搜索像是一种兴奋剂，能立刻提升你的分数，但很快就会趋于平稳。很快，你就需要使用更智能的模型来改善搜索本身，而不是仅仅增加搜索量。（如果仅仅通过搜索能解决问题，那么国际象棋早在1960年代就应被征服。相比于每秒钟一个国际象棋大师能搜索的几步棋，搜索更多的位置并不困难。如果你想得到“Hello World”文本，几只猴子在打字机上或许能做到；但如果你想得到《哈姆雷特》的全文，最好还是开始克隆莎士比亚。）幸运的是，你手头有训练数据和模型，可以用来创造更智能的模型…

Sam Altman（2024年12月20日）：

似乎在今天的喧嚣中，部分内容被忽视了：
在许多编码任务中，o3-mini将以巨大的成本降低超越o1！

### 未来趋势：成本与性能的微妙平衡

我预计这一发展势头将会持续下去，然而，依赖于成倍增加的投入来获取有限的性能提升，这种做法显得相当不合常理。

我们需要注意的是，资金的投入可以用来提升某些模型的表现。然而，这里的“你”或许是指“人工智能实验室”，实际上是在为提升模型本身而投资，而不仅仅是为了应对某个普通任务的临时需求。

这意味着外部观察者可能永远无法接触到中间阶段的模型（就像围棋选手无法看到 AlphaZero 在训练过程中所做的随机检查点）。如果真的存在“部署成本比当前高出千倍”的情形，这正是选择不进行部署的原因所在。何必浪费计算资源来为外部客户提供服务呢？不如继续进行训练，将成果提炼出来，最终你将拥有一个部署成本仅为原来的百分之一、十倍，甚至一倍的模型。

因此，在搜索或测试的过程中，最终的范式可能会显得异常熟悉，尤其是在考虑到所有的二阶效应和新工作流程之后。或许现在是时候重新审视 AlphaZero 和 MuZero 的训练与部署过程，以及计算机在围棋和国际象棋领域的演变，以此作为未来的参考。

*Jones 提到的资料比这里列举的几个参考文献（如 Snell）更加相关，因为 Snell 假设模型是静态且固定的，关注的是平均表现，而非最复杂的情况（尽管解决最具挑战性的问题通常能够带来更高的经济价值——即便你以更低的成本解决那些简单问题，其价值也微乎其微）。在这种背景下，毫不奇怪，反复运用小型、简单且廉价的模型去应对简单任务，可能会超越一个固定的大型模型。然而，这与长期的动态训练无关，因为你仍在不断训练新的模型。这与曾经流行的观点类似，即“小型模型的过度训练是计算最优的”——这种观点建立在一个明显错误的假设之上，假设你无法提炼、量化或剪枝大型模型。但实际上，这些都是可以实现的。

来源：知乎

原文标题：OpenAI 被曝训出 GPT-5，但选择雪藏，消息真实性有多大？GPT-5 真如预期中那么强大吗？ – 段小草的回答

原文链接：https://www.zhihu.com/question/9909661585/answer/82078399919

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

发表至： ai编程

2025-11-17

0