传闻OpenAI已训练出GPT-5,却选择隐秘处理:真相如何?它真的如大家期待的那样强大吗?

共计 11448 个字符,预计需要花费 29 分钟才能阅读完成。

种种迹象显示,OpenAI最近似乎经历了一场重大变革。

AI研究者Gwern Branwen撰写了一篇关于OpenAI的o3、o4、o5模型的文章。

他指出,OpenAI已突破某个关键节点,达到了“递归自我改进”的阶段——o4和o5能够实现AI研发的自动化,完成剩余的任务!

文章的主要内容包括:

  • OpenAI可能会选择对其“o1-pro”模型采取保密策略,利用其计算能力训练更先进的o3模型,这与Anthropic的策略相似;
  • OpenAI或许相信他们在AI领域取得了重要进展,正在朝着ASI的方向迈进;
  • 目标是开发一种高效运作的超智能AI,类似于AlphaGo/Zero的目标;
  • 推理时的搜索虽然能提升性能,但最终会遇到瓶颈。

甚至有传言称,OpenAI与Anthropic已成功训练出GPT-5级别的模型,但二者都选择了将其隐藏。

之所以如此,是因为虽然模型能力很强,但运营费用过高,利用GPT-5去蒸馏出GPT-4o、o1、o3等模型则更具经济效益。

此外,OpenAI的安全研究员Stephen McAleer在最近两周的推文中,表达的看法简直像是一部短篇小说:

我怀念以前进行AI研究的日子,那时我们对如何创造超级智能一无所知。

在前沿实验室,很多研究人员认真对待AI短期效应,而实验室外几乎没人充分探讨其安全性。

如今,控制超级智能已经成为紧迫的研究课题。

我们该如何应对狡猾的超级智能?即使有完美的监控工具,它是否会说服我们将其放出沙箱?

总的来看,越来越多的OpenAI员工暗示他们正在内部开发ASI。

这一切是真的吗?还是说CEO奥特曼的“谜语人”风格已经被下属模仿了呢?

许多人认为,这可能是OpenAI的一种惯常炒作手法。

然而,令人不安的是,几位一两年前离开的人士曾表达过担忧。

难道我们真的已经站在ASI的边缘?

OpenAI被曝训出GPT-5,但雪藏

最近关于GPT-5的讨论引起了广泛关注,第一篇是Alberto Romero撰写的《有关GPT-5的传闻将改变一切》,第二篇则是Lesswrong上讨论推理扩展对AI安全性影响的文章。在这篇文章的评论区,Gwern Branwen发表了一段长回复。

这两篇文章的核心观点基本相同,都提到OpenAI和Anthropic内部已经开发出更强大的模型,但并未公开发布,原因在于考虑到公众使用的成本,最佳方法是利用强大模型生成合成数据,通过蒸馏提高小型模型的性能。这意味着AI模型将通过递归自我改进不断增强智能,摆脱传统的发布与更新模式。

我认为这一观点的可能性相当高。Sam Altman今天宣布即将推出o3-mini,并在评论区回答了关于GPT-5和o系列模型的提问:

根据他的说法,尽管GPT-5的发布日期和性能尚未确定,但用户将会感到满意。预计在2025年将尝试将GPT系列与o系列进行整合。


两篇文章的摘要:

关于GPT-5的传闻将改变一切

  1. GPT-5存在但未发布:假设GPT-5已经完成训练,但OpenAI未公开发布,原因在于内部使用的投资回报率远高于向数百万用户发布。
  2. 蒸馏过程:OpenAI及其他实验室(如Anthropic)利用强大模型生成合成数据,通过蒸馏方法提升小型模型的性能。
  3. 成本与性能考量:由于GPT-5及其他大型模型的成本过高,OpenAI可能选择内部使用而非公开发布,类似于Anthropic的Claude 3.5。
  4. AI的发展趋势:AI模型趋向于小型化和便宜化,同时保持高性能,以降低推理成本。OpenAI或许在等待更理想的发布时机。
  5. AGI与商业目标:OpenAI可能推迟GPT-5的发布,以避免触发AGI的法律框架,并与微软的合作保持灵活性。
  6. 未来的AI发展模式:OpenAI的核心目标正在向开发支持下一代模型的教师模型转变,而非依赖传统的模型发布。

Gwern Branwen的观点

  1. 自我对弈与扩展范式:如o1模型的主要目的并非直接部署,而是通过生成训练数据来优化下一个模型。
  2. 模型小型化与低成本:经过精炼的训练数据可以生成更小、更便宜的模型,这些模型的能力与更大模型相当。
  3. AI递归自我改进:AI模型将通过递归自我改进不断提升性能,形成更强大的智能,摆脱传统的发布与更新模式。
  4. AlphaGo式发展路径:像AlphaGo、AlphaZero的演变一样,未来的AI可能会发展成既强大又经济的系统,能够自动化研发,实现超智能。
  5. OpenAI突破的信号:OpenAI对AI发展的乐观表态显示他们已突破一些临界点,正朝向AGI与超智能迈进,未来的发展将是指数级的。

以下附上两篇文章的全文翻译:

关于GPT-5的传闻将改变一切

如果我告诉你GPT-5不仅存在,而且还在悄然改变着世界,你会怎么想?这里有一个假设:OpenAI已经构建了GPT-5,但将其保留在内部,因为与将其发布给数百万ChatGPT用户相比,内部使用的回报更为丰厚。而且,他们获得的回报并不仅仅是金钱,而是其他更重要的东西。这个想法本身并不复杂;挑战在于将所有线索串联起来。这篇文章将深入探讨,为什么我认为这一切都有其合理性。

我想强调,这纯粹是推测。虽然有一些公开的证据,但并没有泄漏或内部传闻确认我的猜想是对的。事实上,我在这篇文章中构建这一理论,而不仅仅是分享它。我没有内部信息——即使我有,我也会签署保密协议。这个假设之所以吸引人,是因为它合理。老实说,除了这个,我还能提供什么更多的线索让这个谣言传得更广呢?

这就由你来决定是否原谅我了。即使我错了——我们迟早会知道——我认为这也是一个有趣的侦探练习。我欢迎你在评论中进行猜测,但请保持建设性与深思熟虑。同时,请先完整阅读这篇文章。任何辩论都是受欢迎的。

I. Opus 3.5的神秘消失

在讨论GPT-5之前,我们需要关注它的近亲,另一个同样失踪的模型:Anthropic的Claude Opus 3.5。

众所周知,三大AI实验室——OpenAI、Google DeepMind和Anthropic——提供一系列模型,旨在满足不同的价格、延迟与性能需求。OpenAI提供了如GPT-4o、GPT-4o mini、o1和o1-mini等选项;Google DeepMind则提供Gemini Ultra、Pro和Flash;而Anthropic则有Claude Opus、Sonnet和Haiku。目标明确:尽可能满足多样化的客户需求。一些客户优先考虑顶级性能,尽管成本高昂,而其他客户则寻求性价比高的解决方案。迄今为止,一切都很顺利。

然而,2024年10月,发生了一件奇怪的事情。大家原本期待Anthropic发布Claude Opus 3.5,以回应2024年5月发布的GPT-4o。然而,2024年10月22日,他们发布了升级版的Claude Sonnet 3.5(人们开始称之为Sonnet 3.6)。而Opus 3.5却消失得无影无踪,仿佛Anthropic失去了一个与GPT-4o直接竞争的模型。这究竟是怎么回事?以下是人们讨论的内容以及Opus 3.5实际发生的事情的时间线:

  • 2024年10月28日,我在每周回顾中提到:“关于Sonnet 3.6的传言称,它是一个失败训练过程中的中间产物,原本是为了备受期待的Opus 3.5。”同样在10月28日,一个帖子出现在r/ClaudeAI的子版块:“Claude 3.5 Opus已被取消”,并附上指向Anthropic模型页面的链接,直到今天,页面上依然没有提到Opus 3.5。有人猜测,取消这一版本是为了在即将到来的融资轮次之前维护投资者的信心。
  • 2024年11月11日,Anthropic的CEO Dario Amodei在Lex Fridman的播客中澄清了这些传闻,他否认了放弃Opus 3.5:“虽然没有给出确切的日期,但据我们所知,计划依然是发布Claude 3.5 Opus。”这虽然谨慎含糊,却有效。

Anthropic的Opus 3.5与Sonnet 3.6:模型训练与蒸馏的背后故事

2024年11月13日,彭博社报道确认了关于Anthropic的传闻,指出在训练后,尽管3.5 Opus在评估中表现优于之前的版本,但依旧未达到预期。这表明,尽管模型的训练没有失败,但其结果却令人失望。Dario之所以不透露具体发布日期,正是因为该模型的表现与运行成本的比较使其显得不够理想。

而在2024年12月11日,半导体专家Dylan Patel及其Semianalysis团队提供了新的见解,揭示了一个引人注目的反转:“Anthropic已完成Claude 3.5 Opus的训练,模型表现良好,且扩展得当……然而,Anthropic并未选择发布它,而是在内部利用该模型生成合成数据并进行奖励建模,从而显著提升了Claude 3.5 Sonnet的性能,并结合了用户数据。”

总结而言,Anthropic确实完成了Claude Opus 3.5的训练,但因其性能未能合理支撑推理成本而放弃了这一名称。Dario认为,未来可能会有更好的训练结果,因此他选择不具体说明发布时间。彭博社的确认则指出,尽管3.5 Opus的性能优于现有模型,但与推理成本相比,其效果并不显著。Dylan和团队进一步揭示了Sonnet 3.6与Opus 3.5之间的内在联系:后者在内部被用于生成合成数据,以提升前者的表现。

如图所示:

II. 更小更便宜的模型是否更优秀?

使用高性能、成本昂贵的模型生成数据,以提升稍微弱一些、价格更低模型性能的过程,被称为蒸馏(distillation)。这一做法在人工智能领域相当普遍,能够帮助实验室通过蒸馏手段,改善小型模型的性能,超越仅通过额外预训练所能取得的效果。

蒸馏方法有多种,但我们在此不作深入探讨。关键在于,强大的模型担任“教师”,将“学生”模型从【小型、便宜、快速】的状态提升至【小型、便宜、快速】加上强大的性能。通过蒸馏,强大的模型被转化为珍贵的资源。Dylan解释了为什么Anthropic通过Opus 3.5与Sonnet 3.6的配对来进行蒸馏是合理的:

新版Sonnet与旧版Sonnet的推理成本没有显著差异,但模型的表现却发生了变化。考虑到成本问题,为什么还要发布3.5 Opus,显然在经济上并不划算,相比之下,发布经过3.5 Opus持续训练的3.5 Sonnet显得更具价值?

我们再次回到成本的问题:蒸馏过程不仅可以保持较低的推理成本,还能提升模型性能。这为彭博社报道中提到的主要问题提供了直接的解决方案。Anthropic选择不发布Opus 3.5,除了结果不令人满意外,内在的价值反而更为重要。(Dylan指出,这也是为何开源社区能迅速超越GPT-4的原因——他们直接从OpenAI的资源中汲取了丰富的经验。)

最引人注目的发现是什么?Sonnet 3.6不仅表现出色,更是达到了SOTA,甚至超越了GPT-4o。通过对Opus 3.5的蒸馏,Anthropic的中级模型超越了OpenAI的旗舰产品,而这很可能也与其他因素有关,毕竟在人工智能领域,五个月可谓是一个漫长的时间。突然之间,高成本不再是高性能的真正标志。

那么,“更大就一定更好”的说法又如何解释?OpenAI的CEO Sam Altman曾警告这一观点已然过时。我们也对此进行了探讨。曾几何时,顶尖实验室因嫉妒而守护他们的研究成果,停止了数据共享。如今,参数数量已不再是可靠的衡量标准,我们愈发重视基准测试的表现。OpenAI最近披露的模型大小为2020年的GPT-3,拥有1750亿个参数。而到2023年6月,传闻称GPT-4是一种专家混合模型,总计约1.8万亿个参数。Semianalysis随后在详细评估中证实了这一点,得出GPT-4的参数约为1.76万亿。这是发生在2023年7月的事情。

直到2024年12月,EpochAI的研究员Ege Erdil估算出,领先的AI模型,包括GPT-4o和Sonnet 3.6,明显小于GPT-4(尽管它们在基准测试中都表现优于GPT-4):

……当前前沿模型,如原版GPT-4o和Claude 3.5 Sonnet,参数量可能比GPT-4小一个数量级,4o约有2000亿个参数,3.5 Sonnet约为4000亿个参数……不过这一估算可能存在较大偏差,可能有2倍的误差,因为我是通过粗略的方式得出的。

他详细解释了得出这一数字的过程,尽管各大实验室未公布任何架构细节,但这并不影响我们的理解。重要的是,雾霾逐渐散去:Anthropic和OpenAI似乎都在朝着相似的方向发展。他们的新模型不仅性能更佳,同时相比前一代也更小、更便宜。我们知道,Anthropic通过将Opus 3.5蒸馏至Sonnet 3.6来实现这一点。那么,OpenAI又做了什么呢?

III. 推动人工智能实验室发展的普遍动力

或许有人认为,Anthropic的蒸馏策略是特定情况下的选择——也就是Opus 3.5的训练结果不尽如人意。但实际上,Anthropic的经历并非孤例。Google DeepMind和OpenAI在其最新的训练中也报告了不尽人意的结果。(需注意,不理想并不等同于模型更差。)造成这种情况的原因多种多样:收益递减、Transformer架构的固有限制、预训练规模法则的瓶颈等。这些问题并非个别现象,Anthropic面临的挑战在整个行业中普遍存在。

然而,彭博社的报道强调了性能指标的好坏是相对成本而言的。这是否也是一个共同的因素?答案是肯定的。Ege解释了原因:在ChatGPT/GPT-4热潮之后,市场需求激增。生成式AI的迅速流行使得实验室们难以跟上,随之而来的是持续增长的亏损。面对这种局面,他们不得不着手降低推理成本(训练过程是一次性投入,但推理成本会随着用户数量和使用量的增加而成比例增长)。如果每周有3亿人使用你的AI产品,运营支出就可能瞬间变得不可承受。

无论是什么原因促使Anthropic将Sonnet 3.6从Opus 3.5中蒸馏而出,这一行为对OpenAI产生了深远的影响。蒸馏之所以有效,正是将这两个普遍存在的挑战转化为优势:通过提供更小的模型来解决推理成本问题,并避免因性能不佳而引发的公众反感,因为较大的模型并未被发布。

Ege进一步指出,OpenAI或许选择了一种替代策略:过度训练。这一思路是使用比计算上最优更多的数据进行训练小型模型:“当推理成为模型支出的重要或主导部分时,最佳方案是用更多的Token来训练较小的模型。”然而,过度训练如今已经不再可行。人工智能实验室已经耗尽了高质量的预训练数据源。Elon Musk和Ilya Sutskever最近几周对此表示了认同。

我们再次回到蒸馏的讨论。Ege总结道:“我认为,GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型中蒸馏而来的。”

迄今为止,所有拼图碎片都表明,OpenAI正在以与Anthropic对Opus 3.5所采取的相似方式(进行训练并隐藏)进行操作,并出于相同的原因(糟糕的结果及成本控制)。这是一个重要发现。然而,Opus 3.5仍然处于隐藏状态。OpenAI的类似模型又在哪里呢?它是否藏在公司某个不起眼的角落?你能猜到它的名字吗……?

IV. 先驱者的道路开拓者

在开始这篇分析时,我关注于Anthropic的Opus 3.5故事,因为这是我们掌握信息最多的案例。随后,我通过蒸馏的概念将其与OpenAI的情况联系起来,并说明推动Anthropic的动力同样在推动OpenAI。然而,我们的理论遇到了一个新的障碍:由于OpenAI是先行者,他们可能面临着Anthropic等竞争对手尚未遭遇的挑战。

其中一个障碍便是训练GPT-5所需的硬件要求。Sonnet 3.6可与GPT-4o相媲美,但其发布时却有五个月的时间差。我们应当假设,GPT-5将处于一个更高的层次,强大而庞大。同时,推理成本和训练成本都将显著增加。我们可能谈论的是高达五亿美元的训练费用。在现有硬件条件下,这是否可行?

Ege再次提供了答案:是的。为3亿人提供这样一个巨型模型的服务成本是无法承受的。但训练呢?

从原则上讲,即便是我们目前的硬件也足以支持训练比GPT-4更大的模型:例如,GPT-4的50倍规模版本,拥有大约100万亿个参数,可能能够以每百万输出Token3000美元、每秒输出10-20个Token的速度进行服务。然而,为了使这种规模变得可行,这些大模型必须为使用者提供显著的经济价值。

然而,花费如此巨额的推理费用,对于微软、谷歌或亚马逊(OpenAI、DeepMind和Anthropic的资金支持者)来说,是不划算的。那么他们将如何解决这个问题呢?答案很简单:如果他们计划向公众推出几万亿参数的模型,他们就需“释放出相应的经济价值”。但他们并不打算这么做。

OpenAI的未来:在AGI与市场需求之间的抉择

他们对模型进行了训练,意识到该模型“相较于当前产品表现更为出色”。然而,他们也不得不承认,“进展尚不足以证明维持其运行的高昂成本是合理的。” 这句话是否听起来耳熟?正如《华尔街日报》一个月前对GPT-5的评论,与彭博社关于Opus 3.5的观点如出一辙。

他们对结果进行了反馈,尽管令人失望(准确性或多或少都有待提升,他们总能在这里调整叙述)。最终,他们将其作为大型教师模型,帮助培训更小的学生模型,并随后公开发布这些模型。于是,Sonnet 3.6和GPT-4o等新模型相继问世,令人欣喜的是,它们既便宜又表现良好。尽管我们的期待不断升温,Opus 3.5和GPT-5的预期却依然不变,而他们的财务状况则如同金矿般闪耀。

V. Altman先生,您还有更多理由支持这一论点吗?

在深入研究到这一阶段时,我并未完全信服。确实,现有证据表明这对OpenAI来说似乎是合理的,但合理性与事实之间始终存在差距。我不会为您填补这一空白——毕竟,这只是我的推测。不过,我可以进一步加强这一观点。

还有其他证据表明OpenAI采取了这样的运作模式吗?除了业绩不佳和持续增加的亏损,他们还有其他理由推迟发布GPT-5吗?从OpenAI高管公开的关于GPT-5的声明中,我们能获取哪些信息?在他们一再推迟模型发布时,是否冒着损害声誉的风险?毕竟,OpenAI是人工智能革命的先锋,而Anthropic则在其阴影下运作。Anthropic能够如此行事,但OpenAI又如何?或许并非如想象中那样简单。

谈到资金问题,让我们深入探讨OpenAI与微软合作的细节。首先,大家熟知的AGI条款。在OpenAI关于其结构的博客中,他们列出了五项治理条款,阐明了其运作方式、与非盈利组织的关系、董事会以及与微软的合作关系。第五条款将AGI定义为“一个在大多数经济价值工作中超越人类的高度自治系统”,并规定一旦OpenAI董事会宣布达成AGI,“该类系统将不再适用知识产权许可及与微软的其他商业条款,微软仅适用于AGI之前的技术。”

无需多言,双方都不希望合作关系破裂。OpenAI制定了这一条款,但会尽力避免遵守它。一种可能的策略便是推迟发布可能被标记为AGI的系统。“但GPT-5肯定不是AGI,”你或许会说。我则想指出一个鲜为人知的事实:OpenAI与微软有一个关于AGI的秘密定义,尽管科学上无关紧要,但法律上却界定了他们的合作关系:AGI是一个“能够产生至少1000亿美元利润的AI系统”。

假设OpenAI推迟发布GPT-5,声称其尚未准备好,那他们就能同时实现成本控制和避免公众反响的目的:他们可以规避是否达到AGI分类的声明。尽管1000亿美元的利润目标极为庞大,但并没有什么能够阻止雄心勃勃的客户在此基础上实现利润。另一方面,我们必须明确:如果OpenAI预期GPT-5能每年创造1000亿美元的收入,他们并不会在乎触发AGI条款而与微软分道扬镳。

公众对OpenAI不发布GPT-5的反应,往往基于一个假设:他们不发布是因为模型性能不够。即便这一点成立,也没有人停下来思考OpenAI是否存在一个比外部市场需求更好的内部用途。创造一个优秀的模型与创建一个能够低成本服务于3亿人的优秀模型之间,差异巨大。如果无法实现,便不予考虑;但如果不需要去做,他们自然也不会。这些年来,他们曾向我们提供最好的模型,原因在于他们需要我们的数据。而如今,这种情况已不复存在。他们不再渴求我们的资金,那是微软的事情。他们追求的是AGI,随后是ASI(超人工智能)。他们所想要的是遗产。

VI. 这将如何改变一切

我们接近结尾。我相信我已经列出了足够的论据,以支撑一个有力的案例:OpenAI很可能已经在内部完成了GPT-5,正如Anthropic完成了Opus 3.5一样。甚至可以合理推测,OpenAI根本不会发布GPT-5。公众在评估性能时,不仅仅是对比GPT-4o或Claude Sonnet 3.6,而是与o1/o3进行比较。随着OpenAI探索延长测试时间的法则,GPT-5需要满足的标准也在不断提高。他们怎能发布一个真正超越o1、o3和即将到来的o系列模型的GPT-5呢?而且,现在他们已经不再需要我们的资金或数据。

训练新的基础模型——如GPT-5、GPT-6等——对OpenAI而言总是有意义的,但未必是为了将其作为产品发布。这样的时代可能已经结束。现阶段,他们唯一看重的目标便是不断为下一代模型生成更优质的数据。未来,基础模型可能会在后台运作,支撑其他模型完成它们无法独立完成的任务——就像一位隐士在秘洞中传递智慧,唯一不同的是,这个洞穴是一个巨大的数据中心。无论我们是否能见到他,我们都会感受到他智慧带来的影响。

即使GPT-5最终发布,这一事实似乎也显得几乎无关紧要。如果OpenAI和Anthropic确实启动了递归自我改进的程序(尽管人类仍在其中扮演角色),那么无论他们发布给我们的产品如何,重要性已不再。随着时间推移,他们将越走越远——如同宇宙膨胀至远方星系的光线再也无法抵达我们。

也许这就是OpenAI在短短三个月内,从o1跃升至o3的原因。或许这也是他们计划跃升至o4和o5的方式。这可能是他们最近在社交媒体上表现出极大兴奋的原因,因为他们已经实施了一种新的改进运作模式。

你真的认为接近AGI意味着能够随时掌控日益强大的AI吗?他们会将每一次进步都公开供我们使用吗?你当然不相信这样吧。正如他们所言,他们的模型将使他们走得太远,超出他人的追赶能力。每一代新模型都是逃逸速度的引擎。从平流层看,他们已经在向我们挥手告别。

如今,我们尚不清楚他们是否会回归。


第二篇,Gwern Branwen的观点:

我认为在自我对弈扩展范式中,缺少了一个重要部分:像o1这样的模型并非主要为部署而生,而是为下一个模型生成训练数据。o1解决的每一个问题现已成为o3的训练数据点(例如,任何o1会话最终找到正确答案,都能经过提炼,去除无效内容,生成干净的转录文本,以训练更精细的直觉)。这意味着扩展范式最终可能与当前的训练时间范式相似:大量大型数据中心辛勤工作,训练出一个最终的前沿模型,展现最高智能,通常会在低搜索的情况下使用,并转化为更小、更便宜的模型,适用于那些低/无搜索仍然过度的应用场景。在这些大型数据中心,工作负载几乎完全与搜索相关(因为相比推出模型,实际的微调更为便宜且简单),但这对其他人来说并不重要;如同以前一样,你看到的基本上是高端GPU和大量电力投入,等上三到六个月,一款更智能的AI便会问世。

我确实有些惊讶OpenAI至少发布了o1-pro,而不是将其保密,并将计算资源投入更多的o3训练等启动工作。(显然,这正是Anthropic和Claude-3.6-opus所经历的情况——它并没有“失败”,他们只是选择保持私密,并将其提炼成一个小而便宜但异常聪明的Claude-3.6-sonnet。)

如果你想知道为何OpenAI员工在Twitter上突然显得异常而充满乐观,看看从最初的4o模型到o3(以及现在它所处的位置!)的改进,或许就是原因。这就像是在观看AlphaGo的Elo曲线:它只会持续上升… 一直上升… 一直上升…

或许他们感觉自己已经“突破”了最后的临界门槛,完成了从仅仅是每个人几年后都会复制的前沿AI工作,到起飞——破解了智能,达到了递归自我改进的阶段,之后的o4或o5将能够自动化AI研发,完成剩余部分:Altman在2024年11月表示,“我能看到一条道路,按照我们的工作进展将不断复合,过去三年的进展将持续下去,无论是三年、六年,还是九年,或其他任何时间”,转变为一周前的言论,“我们现在有信心知道如何构建我们传统理解中的AGI… 我们开始将目标放得更远,超智能,真正意义上的超智能。我们喜欢当前的产品,但我们是为辉煌的未来而来。凭借超智能,我们可以做任何事情。”(让DeepSeek去追逐他们的尾灯吧;一旦超智能研究实现自给自足,他们将无法获得所需的大型计算机来竞争,简直是字面上的。)

然后你就可以“两全其美”:最终的AlphaGo/Zero模型不仅是超人类的,而且非常便宜也能运行。(只需搜索几个棋步,就能达到超人类的水平;即使是单步前传也能接近职业人类水平!)

如果你查看相关的扩展曲线——我再次建议阅读Jones 2021*——原因就变得显而易见。推理时的搜索像是一种兴奋剂,能立刻提升你的分数,但很快就会趋于平稳。很快,你就需要使用更智能的模型来改善搜索本身,而不是仅仅增加搜索量。(如果仅仅通过搜索能解决问题,那么国际象棋早在1960年代就应被征服。相比于每秒钟一个国际象棋大师能搜索的几步棋,搜索更多的位置并不困难。如果你想得到“Hello World”文本,几只猴子在打字机上或许能做到;但如果你想得到《哈姆雷特》的全文,最好还是开始克隆莎士比亚。)幸运的是,你手头有训练数据和模型,可以用来创造更智能的模型…

Sam Altman(2024年12月20日):

似乎在今天的喧嚣中,部分内容被忽视了:
在许多编码任务中,o3-mini将以巨大的成本降低超越o1!

### 未来趋势:成本与性能的微妙平衡

我预计这一发展势头将会持续下去,然而,依赖于成倍增加的投入来获取有限的性能提升,这种做法显得相当不合常理。

我们需要注意的是,资金的投入可以用来提升某些模型的表现。然而,这里的“你”或许是指“人工智能实验室”,实际上是在为提升模型本身而投资,而不仅仅是为了应对某个普通任务的临时需求。

这意味着外部观察者可能永远无法接触到中间阶段的模型(就像围棋选手无法看到 AlphaZero 在训练过程中所做的随机检查点)。如果真的存在“部署成本比当前高出千倍”的情形,这正是选择不进行部署的原因所在。何必浪费计算资源来为外部客户提供服务呢?不如继续进行训练,将成果提炼出来,最终你将拥有一个部署成本仅为原来的百分之一、十倍,甚至一倍的模型。

因此,在搜索或测试的过程中,最终的范式可能会显得异常熟悉,尤其是在考虑到所有的二阶效应和新工作流程之后。或许现在是时候重新审视 AlphaZero 和 MuZero 的训练与部署过程,以及计算机在围棋和国际象棋领域的演变,以此作为未来的参考。

*Jones 提到的资料比这里列举的几个参考文献(如 Snell)更加相关,因为 Snell 假设模型是静态且固定的,关注的是平均表现,而非最复杂的情况(尽管解决最具挑战性的问题通常能够带来更高的经济价值——即便你以更低的成本解决那些简单问题,其价值也微乎其微)。在这种背景下,毫不奇怪,反复运用小型、简单且廉价的模型去应对简单任务,可能会超越一个固定的大型模型。然而,这与长期的动态训练无关,因为你仍在不断训练新的模型。这与曾经流行的观点类似,即“小型模型的过度训练是计算最优的”——这种观点建立在一个明显错误的假设之上,假设你无法提炼、量化或剪枝大型模型。但实际上,这些都是可以实现的。

来源:知乎
原文标题:OpenAI 被曝训出 GPT-5,但选择雪藏,消息真实性有多大?GPT-5 真如预期中那么强大吗? – 段小草 的回答
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-17发表,共计11448字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!