GPT-5是否真的强大？揭秘OpenAI雪藏背后的真相！

没有评论

共计 11323 个字符，预计需要花费 29 分钟才能阅读完成。

近期的种种迹象显示，OpenAI似乎经历了一些重大变化。

AI研究者Gwern Branwen发表了一篇探讨OpenAI o3、o4及o5的文章。

他指出，OpenAI似乎已经突破了某个临界点，达到了“递归自我改进”的阶段——o4或o5可能实现AI研发的自动化，完成后续任务！

文章的主要观点如下：

OpenAI可能会选择对其“o1-pro”模型进行保密，利用现有计算资源训练o3等更高级别的模型，这一策略类似于Anthropic的做法；
OpenAI或许相信他们在AI发展上已取得重大突破，正在迈向ASI的方向；
其目标是开发一种高效能的超人AI，类似AlphaGo/Zero所追求的目标；
推理时的搜索初期能够提高性能，但最终会遇到瓶颈。

甚至有传闻称，OpenAI与Anthropic已经训练出了GPT-5级别的模型，但选择将其“封存”。

之所以如此，是因为尽管模型能力强大，但运营成本极高，利用GPT-5提炼出GPT-4o、o1、o3等模型，才更具性价比。

值得注意的是，OpenAI安全研究员Stephen McAleer最近在推特上的发言，简直像是短篇科幻小说：

我怀念以前进行AI研究的日子，那时我们对如何创造超级智能一无所知。

在前沿实验室，许多研究人员对AI短期影响抱有严肃态度，而实验室外几乎没有人充分讨论其安全性。

如今，控制超级智能已成为迫在眉睫的研究课题。

我们该如何对付狡猾的超级智能？即使有完美的监控，它难道不会说服我们把它从沙箱中放出来吗？

总之，越来越多的OpenAI员工开始暗示他们在内部开发ASI。

这一切是真的吗？还是CEO奥特曼的“谜语人”风格被员工们模仿了呢？

不少人认为，这只是OpenAI惯用的炒作方式。

但令人担忧的是，一些一两年前离职的人曾表达过忧虑。

难道我们真的已处于ASI的边缘？

OpenAI被曝训出GPT-5，但雪藏

最近，关于GPT-5的讨论热度不减。其中一篇文章是Alberto Romero撰写的《这则关于GPT-5的传闻改变了一切》，另一篇则是Lesswrong上关于推理扩展对AI安全影响的讨论，Gwern Branwen在评论区对此发表了长篇回复。

这两篇文章的核心观点相似，都提到OpenAI和Anthropic内部已经实现了更强大的模型，但选择不对外发布，原因在于考虑到公众使用的成本，采用强大模型生成合成数据，通过蒸馏方法提升小型模型的性能。因此，AI模型将通过递归自我改进不断提升能力，而不再依赖传统的发布和更新机制。

我认为这一观点是相当有可能的。今天，Sam Altman宣布o3-mini即将发布，并在评论区回应了大家对GPT-5和o系列模型的疑问：

根据他的说法，虽然GPT-5的发布及性能尚未确定，但用户应该会对此感到满意。他提到，2025年将尝试将GPT系列与o系列进行整合。

GPT-5的存在但未发布：假设GPT-5已经训练完成，但OpenAI并未公开发布，原因在于内部使用的投资回报率高于向数百万用户发布。
蒸馏过程：OpenAI及其他实验室（如Anthropic）利用强大模型生成合成数据，通过蒸馏方法提升小型模型的性能。
成本与性能的考量：GPT-5等大型模型的成本过高，可能导致OpenAI选择内部使用而非公开发布，类似于Anthropic的Claude 3.5。
AI发展的趋势：AI模型更趋向于小型化与低成本，同时保持高性能，以降低推理成本。OpenAI或许在等待更合适的发布时机。
AGI与商业目标：OpenAI可能推迟GPT-5的发布，以避免触发AGI相关法律框架，并保持与微软的合作灵活性。
未来的AI发展模式：OpenAI的核心目标转向开发支持下一代模型的教师模型，而非依赖传统发布模式。

自我对弈与扩展范式：像o1这样的模型主要目的是通过生成训练数据来优化下一个模型，而非直接部署。
模型小型化与低成本：经过精炼的训练数据可生成更小、更便宜的模型，这些模型的表现与更大模型相当。
AI的递归自我改进：AI模型将通过递归自我改进不断提升性能，形成更强大的智能，不再依赖传统发布和更新模式。
AlphaGo式的发展路径：未来的AI可能像AlphaGo、AlphaZero一样，发展成强大且廉价的系统，能够自动化研发，实现超智能。
OpenAI的突破感：OpenAI对AI发展的乐观态度表明，已突破特定临界门槛，向AGI和超智能进发，未来的进展将呈指数级增长。

以下是两篇文章的全文翻译：

如果我告诉你GPT-5的确存在，而且不仅是存在，它还在悄悄改变世界，从你无法看见的地方开始，你会怎么想？设想一下：OpenAI已经构建了GPT-5，但将其保留在内部，因为与将其发布给数百万ChatGPT用户相比，内部使用的投资回报率要高得多。而且，他们所获得的回报并非金钱，而是其他东西。这个想法本身并不复杂，挑战在于将指向它的线索连接起来。本文将深入探讨为何我认为这一切都能够解释。

我必须强调，这纯粹是推测。虽然有一些公开证据，但没有泄露或内部传闻证明我是对的。实际上，我正在通过这篇文章构建这一理论，而不仅仅是分享它。我没有内部信息——即使我有，我也会签署保密协议。这个假设之所以可信，是因为它合乎逻辑。说实话，除了这个，我还能提供什么更多的线索让这个谣言传播得更广呢？

这就由你来决定是否原谅我了。即使我错了——我们迟早会知道——我认为这也是一个有趣的侦探练习。我邀请你在评论中进行猜测，但请保持建设性和深思熟虑。同时，请先完整阅读这篇文章。除此之外，欢迎任何辩论。

在讨论GPT-5之前，我们需要回顾一下它的远亲，另一个同样失踪的角色：Anthropic的Claude Opus 3.5。

如你所知，三大AI实验室——OpenAI、Google DeepMind和Anthropic——都提供一系列模型，旨在满足不同价格、延迟和性能的需求。OpenAI提供了GPT-4o、GPT-4o mini、o1和o1-mini等选项；Google DeepMind提供了Gemini Ultra、Pro和Flash；Anthropic则有Claude Opus、Sonnet和Haiku。目标非常明确：尽可能满足不同客户的需求。一些客户优先考虑顶级性能，无论成本如何，而其他客户则寻求既实惠又足够好的解决方案。到目前为止，一切顺利。

然而，在2024年10月，发生了一件奇怪的事情。大家原本在期待Anthropic发布Claude Opus 3.5，以回应2024年5月发布的GPT-4o。但是在2024年10月22日，他们发布了更新版的Claude Sonnet 3.5（开始被称为Sonnet 3.6），而Opus 3.5却杳无音信，似乎Anthropic失去了一个与GPT-4o直接竞争的模型。很奇怪吧？以下是人们对Opus 3.5实际情况的讨论与时间线：

2024年10月28日，我在每周回顾中提到：“[有] 关于Sonnet 3.6的传闻称，它是一个失败训练过程中的中间检查点，原计划是为了备受期待的Opus 3.5。”同样在10月28日，r/ClaudeAI子版块出现了一则帖子：“Claude 3.5 Opus已被取消”，并附有指向Anthropic模型页面的链接，直到现在，页面上仍没有提到Opus 3.5。有些人推测，取消此版本是为了在即将到来的融资轮次前保持投资者的信心。
2024年11月11日，Anthropic的CEO Dario Amodei在Lex Fridman的播客中澄清了这些传闻，他否认放弃Opus 3.5：“虽然没有给出确切日期，但据我们所知，计划依然是发布Claude 3.5 Opus。”他的回答谨慎而含糊，但有效。

彭博社于 2024 年 11 月 13 日的报道中确认了有关 Anthropic 的一些传言，指出该公司在训练 Opus 3.5 后发现其在评估表现上优于之前的版本，但并未达到预期的效果。尽管 Dario 避免明确说明发布日期，但这反映出 Opus 3.5 虽然没有完全失败，但却未能令人满意。尤其值得注意的是，报道强调了性能与成本之间的关系，而非单纯的性能表现。

随后在 2024 年 12 月 11 日，半导体专家 Dylan Patel 及其 Semianalysis 团队为这一局面提供了新的视角，揭示了一个更为合理的解释：“Anthropic 完成了 Claude 3.5 Opus 的训练，模型表现良好，并且扩展得当。然而，他们并未发布该模型，而是将其用于生成合成数据并进行奖励建模，从而显著提升了 Claude 3.5 Sonnet 的性能，同时结合了用户数据。”

综上所述，Anthropic 确实进行了 Claude Opus 3.5 的训练，但由于其性能未能足够justify推理成本，因此放弃了这一名称。Dario 认为不同的训练方案可能会带来更好的结果，这也是他未能给出确切发布时间的原因。而彭博社则确认了 Opus 3.5 性能优于现有模型，但在推理成本方面效果并不明显。Dylan 和团队揭示了 Sonnet 3.6 与 Opus 3.5 的关系，后者被内部用于生成合成数据以提升前者的表现。

如同图示所示：

利用强大且昂贵的模型生成数据，从而提升稍微弱一些且更为经济的模型性能，这一过程被称为蒸馏。这种做法在业界非常普遍，能够帮助人工智能实验室通过蒸馏提升其小型模型的表现，超越单纯依靠额外预训练所能达到的效果。

蒸馏有多种实现方式，但我们不打算深入探讨。需要注意的是，强大的模型在这里充当“教师”，将“学生”模型从【小型、便宜、快速】转变为【小型、便宜、快速】加上强大的能力。Dylan 指出，选择通过 Opus 3.5 和 Sonnet 3.6 的配对进行蒸馏是合理的：

新版 Sonnet 的推理成本与旧版相差无几，但模型的表现却有了显著提升。考虑到经济因素，发布 3.5 Opus 显然不具吸引力，相较于发布经过 3.5 Opus 进一步训练的 3.5 Sonnet，更为划算。

这再一次强调了成本问题：蒸馏可以在保持低推理成本的同时提升性能。这是针对彭博社报道中提出的主要关注点的直接回应。Anthropic 选择不发布 Opus 3.5，除了因为结果未达预期，更多是因为其在内部的使用价值更高。（Dylan 还指出，这也是开源社区能够迅速赶超 GPT-4 的原因——他们直接从 OpenAI 的成果中汲取灵感。）

令人震惊的发现是，Sonnet 3.6 不仅出色，甚至达到了 SOTA 级别，超越了 GPT-4o。通过对 Opus 3.5 进行蒸馏，Anthropic 的中间模型超出了 OpenAI 的旗舰模型，而这一结果可能与其他因素相关，毕竟在 AI 领域，五个月的时间可谓久远。瞬间，高成本也显得不再是高性能的代名词。

那么，“更大就是更好”的观点又在哪里呢？OpenAI 的 CEO Sam Altman 曾警告这一观点已过时。过去顶尖实验室神秘地保守着自己的研究成果，停止了数据共享。如今，参数数量已不再是衡量模型效能的可靠标准，我们的关注点逐渐转移到了基准性能上。OpenAI 最后对外披露的模型大小为 2020 年的 GPT-3，参数数量为 1750 亿。到 2023 年 6 月，关于 GPT-4 的传言称其为一个专家混合模型，总参数量约为 1.8 万亿。Semianalysis 随后在详细评估中证实了这一点，得出的 GPT-4 具备 1.76 万亿参数的结论，这是在 2023 年 7 月的事情。

直到 2024 年 12 月，EpochAI 的研究员 Ege Erdil 估算，领先的 AI 模型——包括 GPT-4o 和 Sonnet 3.6——明显小于 GPT-4（尽管它们在基准测试中的表现超过了 GPT-4）：

……目前的前沿模型，如原版 GPT-4o 和 Claude 3.5 Sonnet，可能比 GPT-4 小一个数量级，4o 约为 2000 亿参数，3.5 Sonnet 约为 4000 亿参数……不过这一估算可能存在较大误差，因为我是通过粗略的方法得出的。

他详细阐述了自己的计算过程，尽管各大实验室并未披露架构的具体细节，但这对我们来说并不重要。关键在于，真相逐渐浮出水面：Anthropic 和 OpenAI 似乎都在走着相似的道路。他们最新的模型不仅在性能上更为优越，同时体积和成本也小于上一代。我们知道，Anthropic 是通过将 Opus 3.5 蒸馏至 Sonnet 3.6 来实现这一点。那么 OpenAI 又采取了何种措施呢？

有人可能认为，Anthropic 的蒸馏策略是特定情况下的产物——即 Opus 3.5 的训练结果不尽如人意。然而，实情是，Anthropic 的遭遇并非孤例。Google DeepMind 和 OpenAI 在最新的训练中也报告了不尽人意的结果。（需要注意的是，不尽人意并不等同于模型质量较差。）这些原因对我们来说并不重要，包括因数据匮乏导致的收益递减、Transformer 架构的局限性，以及预训练规模法则所带来的瓶颈等。不论如何，Anthropic 的特定情形实际上是普遍存在的。

但是，请牢记彭博社的报道：性能指标的优劣是与其成本相对比的。这是否也是一个共同特征呢？当然是的，Ege 解释了原因：在 ChatGPT/GPT-4 热潮之后，需求激增。生成式 AI 的迅速崛起让实验室们难以跟上，导致亏损不断增加。这样的局势促使他们着手降低推理成本（训练过程是一锤子买卖，但推理成本随着用户数量和使用频率的增加而大幅上涨）。如果每周有 3 亿人使用你的 AI 产品，运营支出可能会迅速变得不可承受。

无论是什么原因促使 Anthropic 从 Opus 3.5 中蒸馏出 Sonnet 3.6，显然对 OpenAI 也产生了多重影响。蒸馏之所以有效，正是因为它将这两个普遍存在的挑战转化为优势：通过提供更小的模型来解决推理成本问题，同时避免因模型性能不佳而引起公众反感，因为较大的模型并未被披露。

Ege 进一步提出，OpenAI 可能采取了另一种方式：过度训练。这个概念是针对小型模型使用比最佳计算更多的数据进行训练：“当推理成本成为模型开销的重要组成部分时，最好是……用更多的 Token 来训练较小的模型。”然而，过度训练如今已不再可行。人工智能实验室已耗尽高质量的预训练数据源。Elon Musk 和 Ilya Sutskever 最近几周都对此表示了认可。

我们又回到蒸馏的主题。Ege 总结道：“我认为，GPT-4o 和 Claude 3.5 Sonnet 很可能是从更大的模型中蒸馏而来的。”

目前为止，所有拼图的碎片显示，OpenAI 正在以与 Anthropic 类似的方式（训练并隐匿）进行操作，并出于相同的原因（糟糕的结果及成本控制）。这是一个新的发现。但是，Opus 3.5 仍然被隐匿着。那么 OpenAI 的类似模型在哪里？它是否藏匿于公司地下室？你敢猜测一下它的名字吗……？

我开始撰写这篇分析时，是通过研究 Anthropic 的 Opus 3.5 故事，因为这是我们拥有更多信息的案例。随后，我通过蒸馏的理念将其与 OpenAI 联系起来，解释了推动 Anthropic 的基本力量同样适用于 OpenAI。然而，这一理论中出现了新的障碍：作为先行者，OpenAI 可能面临 Anthropic 等竞争对手尚未遭遇的挑战。

其中一个挑战是训练 GPT-5 所需的硬件要求。Sonnet 3.6 可与 GPT-4o 相媲美，但其发布延迟了五个月。我们应当假设 GPT-5 将会处于更高的层次，既强大又庞大。而且不仅推理成本高昂，训练成本同样不菲。我们可能在谈论高达五亿美元的训练费用，在现有硬件条件下是否能够实现呢？

Ege 再次提供了解释：是的。为 3 亿人提供这样规模的巨型模型服务是不可承受的。但训练呢？这就简单多了：

从原则上讲，即使在我们当前的硬件条件下，训练比 GPT-4 更大规模的模型也是可行的。例如，有可能训练一个 GPT-4 规模的 50 倍版本，拥有约 100 万亿个参数，并且能够以每百万 Token 输出 3000 美元、每秒输出 10-20 个 Token 的速度进行服务。然而，为了使这种规模成为现实，这些大模型必须为使用它们的客户创造出巨大的经济价值。

然而，承担如此巨额的推理费用，对于微软、谷歌或亚马逊（OpenAI、DeepMind 和 Anthropic 的资助方）来说，是不划算的。那么他们是如何解决这一问题的呢？很简单：如果他们计划向公众推出几万亿参数的模型，他们必须“释放出巨大的经济价值”。但显然，他们并不打算这么做。

OpenAI的未来：从GPT-5的推迟到AGI的探索

在对新模型进行训练的过程中，他们意识到其性能超越了现有产品。然而，他们也不得不承认，当前的进展尚不足以证明维持其运行的高昂成本是合算的。这一观点并不陌生，早在一个月前，《华尔街日报》就曾对GPT-5做出类似的评价，这与彭博社对Opus 3.5的看法如出一辙。

他们向外界报告了不尽人意的结果，尽管这些数据可以通过叙事技巧进行操控。最终，他们决定将其作为大型教师模型，负责训练出更小的学生模型。随后，Sonnet 3.6和GPT-4o等模型相继发布，虽然它们的成本低且性能尚可，但对于Opus 3.5和GPT-5的期待却依旧没有变化。与此同时，他们的财务状况依旧如同闪耀的金矿。

在经过深入研究后，我依然心存疑虑。虽然所有证据表明OpenAI的决定合理，但理智与现实之间往往存在鸿沟。我不会为您填补这一空白，因为这只是推测，但我可以进一步支持这一论点。

是否还有其他证据表明OpenAI的运作方式如此？除了业绩不佳和持续上升的亏损外，他们是否有更多原因推迟发布GPT-5？从OpenAI高管关于GPT-5的公开声明中，我们能提炼出哪些信息？当他们一再推迟模型发布时，是不是在冒着损害自身声誉的风险？毕竟，OpenAI作为人工智能革命的先锋，而Anthropic则在其阴影下运作。Anthropic可以这样做，但OpenAI能够做到吗？或许未必。

谈到资金，我们不妨挖掘一下OpenAI与微软合作的细节。众所周知的AGI条款在OpenAI的结构性博客中被明确列出，其中第五条款将AGI定义为“一个在绝大多数经济价值工作中超越人类的高度自治系统”，并规定一旦OpenAI董事会宣布达成AGI，这样的系统将不受知识产权许可的约束，微软只适用于AGI之前的技术。

显然，两家公司都不希望合作关系破裂。虽然OpenAI设定了这一条款，但他们会尽一切可能避免遵守。推迟发布可能被认定为AGI的系统便是一种策略。“但GPT-5肯定不是AGI，”你可能会说。然而，我要指出的是，几乎没有人知道的一个事实是：OpenAI和微软之间存在一个关于AGI的秘密定义，尽管这一定义在科学上并无意义，但却在法律上界定了他们的合作关系：AGI被定义为“能够产生至少1000亿美元利润的AI系统”。

假如OpenAI推迟发布GPT-5，以准备不足为借口，他们可实现控制成本及避免公众反响的双重目标：同时避免对是否达到AGI分类的明确声明。尽管1000亿美元的利润是个庞大的数字，但并没有阻止雄心勃勃的客户在此基础上构建获取如此利润。另一方面，让我们明确：若OpenAI预计GPT-5能每年产生1000亿美元的持续收入，他们不会在意触发AGI条款并与微软分道扬镳。

公众对OpenAI不发布GPT-5的反应，通常基于假设认为模型不够优秀。即使这一点成立，依然没有人停下来思考OpenAI是否存在比外部市场需求更具潜力的内部应用场景。开发一个优秀模型与创建一个能以低成本服务于三亿人的优秀模型之间，差异巨大。如果无法做到，他们就不会去做。但如果不需要做，他们同样不会去做。曾几何时，他们向我们提供最佳模型，因而需要我们的数据。而今，这种情况已不复存在。他们也不再寻求我们的资金，那是微软的职责。他们追求的是AGI，接着是ASI（超人工智能），他们想要的是遗产。

我们即将结尾。我相信我已经列举了足够的论据，展示OpenAI很可能已经内部完成了GPT-5，就像Anthropic完成了Opus 3.5一样。甚至可以合理推测，OpenAI可能根本不会发布GPT-5。公众在评估性能时，不再仅仅是对比GPT-4o或Claude Sonnet 3.6，而是对比o1/o3。当OpenAI探索测试时间扩展法则时，GPT-5所需达到的标准也在不断提升。他们如何可能发布一个真正超越o1、o3及即将问世的o系列模型的GPT-5呢？而且，他们现在已不再需要我们的资金或数据。

为新一代基础模型（如GPT-5、GPT-6等）的训练，对OpenAI来说始终有意义，但不一定以产品形式发布。这样的时代也许已经结束。如今，他们最重要的目标就是持续为下一代模型生成更优质的数据。未来，基础模型可能在后台运行，支持其他模型完成独立无法实现的任务，宛如一位隐士在秘密山洞中传递智慧，唯一不同的是这个山洞是一个庞大的数据中心。无论我们是否见到他，智慧的结果都会影响到我们。

即使GPT-5最终问世，这一事实也变得几乎无关紧要。如果OpenAI与Anthropic真的启动了递归自我改进的过程（尽管人类依然发挥着作用），无论他们发布何种产品，对我们而言都已不再重要。他们将不断超越传统界限——就像宇宙的快速膨胀，使得遥远星系的光无法到达我们。

或许这就是OpenAI在短短三个月内，从o1跃升至o3的原因。也许这就是他们跳跃到o4和o5的方式。这也可能是他们在社交媒体上表现出极大激动的原因，因为他们已经实施了一种全新的改进模式。

你真的认为接近AGI意味着能够随时掌控越来越强大的AI吗？他们会将每一次进步都公开发布供我们使用吗？你当然不会相信这样的事情。正如他们所言，他们的模型将使他们走得太远，以至于其他人无法追赶。每一代新模型都是突破性进展的引擎。从平流层的高度，他们已经向我们挥手告别。

现在仍不清楚他们是否会回归。

第二篇，Gwern Branwen的观点：

我认为在这一讨论中缺少了自我对弈扩展范式的重要组成部分：像o1这样的模型的主要目的并非部署，而是为下一个模型生成训练数据。o1所解决的每个问题现在都成为了o3的训练数据点（例如，任何o1会话最终找到的正确答案，经过精炼后去除无效信息，生成干净的转录文本，以训练更为精细的直觉）。这意味着这里的扩展范式最终可能与当前的训练时间范式非常相似：大量大型数据中心辛勤工作，训练出一个最终的前沿模型，代表着最高的智能，而这个模型通常会以低频率被使用，并转化为更小、更便宜的模型，供那些低需求的应用场景使用。在这些大型数据中心，工作负载几乎完全与搜索相关（因为相比推出新模型，实际的微调更为简单且便宜），但这对其他人来说并不重要；如同过去一样，您看到的基本上是高端GPU和兆瓦级电力的投入，等候三到六个月，一款更智能的AI便会问世。

我实际上有些惊讶OpenAI至少部署了o1-pro，而不是将其保密，并将计算资源投入更多的o3训练等启动工作。（显然，这正是Anthropic和Claude-3.6-opus所经历的事情——它并没有“失败”，他们只是选择保持私密，并将其提炼成一个小而便宜但异常聪明的Claude-3.6-sonnet。）

如果你想知道为什么OpenAI在Twitter上的表现突然显得异常、几乎是兴奋的乐观，看看从最初的4o模型到o3（以及现在它所在的位置！）的改进，或许就是原因。这就像在观察AlphaGo的Elo曲线：它只会持续上升… 一直上升… 一直上升…

也许他们感受到了一种突破的感觉，终于跨越了最后的临界门槛，从仅仅是每个人几年后都会复制的前沿AI工作，到起飞——破解了智能，达到了递归自我改进的阶段。在o4或o5之后，能够自动化AI研发，完成剩下的部分：Altman在2024年11月表示，“我能看到一条道路，按照我们所做的工作，我们的进展会不断复合，过去三年的成果将持续下去，无论三年、六年、九年，还是其他任何时间”，这转变成了一个星期前的言论：“我们现在有信心知道如何构建我们传统理解中的AGI… 我们开始将目标放得更远，超智能，真正意义上的超智能。我们喜欢我们当前的产品，但我们是为辉煌的未来而来。凭借超智能，我们可以做任何事。”（让DeepSeek去追逐他们的尾灯吧；一旦超智能研究能够自给自足，他们就无法获得所需的大型计算机来竞争，简直是字面上的。）

那么，你就可以实现“两全其美”：最终的AlphaGo/Zero模型不仅是超人类的，而且运行成本也相对低廉。（只需搜索几个棋步，就能达到超人类的水平；即使是单步前传也能达到接近职业人类的水平！）

如果你查看相关的扩展曲线——我再次建议阅读Jones 2021*——原因就变得显而易见。推理时的搜索就像一种兴奋剂，能立刻提升你的分数，但很快就会趋于平稳。随后，你就需要使用更智能的模型来改善搜索本身，而不仅仅是进行更多搜索。（如果仅仅依靠搜索能成功，那么国际象棋早在1960年代就应该被解决了。比起每秒钟一个国际象棋大师能搜索的几步棋，搜索更多的位置并不难。如果你想得到“Hello World”文本，几只猴子在打字机上或许能做得很廉价；但如果你想得到《哈姆雷特》全文，最好还是开始克隆莎士比亚。）幸运的是，你手头有训练数据和模型，可以用来创造一个更智能的模型…

Sam Altman（2024年12月20日）：

似乎在今天的喧嚣中，部分内容被忽视了：
在许多编码任务中，o3-mini将以巨大的成本降低超越o1！

### 未来的模型训练与部署成本分析

我认为这一趋势将会持续下去，但同时，利用成倍增加的投入来获得边际性能的提升，似乎有些不合常理。可以明确的是，资金的投入能提升某些输出上的模型效果……然而，这里的“你”可能是指“人工智能实验室”，你的花费实际上是为了提升模型的整体性能，而不仅仅是为了应对某个特定问题的临时解决方案。

这意味着，外部观察者或许永远无法接触到中间模型的状态，正如围棋选手无法看到AlphaZero在训练过程中的随机检查点。此外，假如“部署成本比现阶段高出1000倍”的情况属实，这正是我们选择不进行部署的原因。为何要浪费计算资源来服务外部客户呢？不如继续训练，提炼出更优的结果，最终你将能够拥有一个部署成本仅为原先100倍、接着是10倍、然后是1倍，最后甚至低于1倍的卓越模型。

因此，在搜索和测试的过程中，最终会出现一种极为熟悉的模式，尤其是在考虑到所有的二阶效应及新工作流程时。或许是时候重新审视一下AlphaZero和MuZero的训练与部署情况，以及计算机围棋和国际象棋发展的后续影响，作为一种预示。

*Jones与这里提到的一些参考文献（例如Snell）相比，更具相关性，因为Snell假设了静态和固定的模型，关注的是平均情况下的表现，而非最具挑战性的情境（尽管最棘手的问题往往也是最具经济价值的——解决那些其他模型已经能够应对的简单问题，并不会带来太多收益，即使你能以更低的成本解决它们）。在这种背景下，频繁使用小型、简单且经济的模型来处理简单问题，可能会超越一个固定的大型模型。然而，这与长期的动态性无关，因为你正在进行新的模型训练。这种情况有点类似于过去人们普遍认为“过度训练小模型是计算效率最高的”这一观点——这一看法只在一个明显错误的假设下成立，即假设你无法提炼、量化或剪枝大型模型。但实际上，这是完全可行的。

来源：知乎

原文标题：OpenAI 被曝训出 GPT-5，但选择雪藏，消息真实性有多大？GPT-5 真如预期中那么强大吗？ – 数毛党的回答

原文链接：https://www.zhihu.com/question/9909661585/answer/82144906192

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完