共计 11646 个字符,预计需要花费 30 分钟才能阅读完成。
近期的各种迹象显示,OpenAI似乎经历了一些重大的变化。

AI研究者Gwern Branwen撰写了一篇关于OpenAI的o3、o4和o5模型的文章。
他指出,OpenAI已经达到“递归自我改进”的关键阶段——o4或o5将能够自动化AI的研发,完成剩余任务!
文章的核心要点包括:
- OpenAI或许会选择对其“o1-pro”模型保持保密,利用其计算能力来训练更高级的o3模型,这与Anthropic的策略相似;
- OpenAI可能认为他们在AI发展上取得了突破,正在迈向ASI的新阶段;
- 目标是创造一种高效运作的超智能AI,类似于AlphaGo/Zero所实现的目标;
- 推理过程中的搜索最初可能提高表现,但最终会遇到瓶颈。
还有传言称,OpenAI与Anthropic已经训练出了GPT-5级别的模型,但两者均选择将其“雪藏”。
之所以如此,是因为尽管模型性能卓越,但运营费用过高,相较之下,用GPT-5提炼出GPT-4o、o1、o3等模型更具性价比。
此外,OpenAI的安全研究员Stephen McAleer在过去两周的推文中,仿佛在讲述一篇短篇科幻小说:
我有些怀念过去进行AI研究的时光,那时我们对如何创造超级智能一无所知。
在前沿实验室中,许多研究者对AI短期内的影响持严肃态度,而实验室外几乎没有人充分讨论其安全隐患。
如今,控制超级智能已成为迫在眉睫的研究课题。
我们应当如何掌控狡猾的超级智能?即便拥有完美的监控工具,它是否能说服我们将其从沙箱中释放出来呢?
总的来说,越来越多的OpenAI员工暗示他们正在内部研发ASI。这是真的吗?还是说CEO奥特曼的“谜语风格”被员工们学到了呢?

很多人认为,这是OpenAI惯用的炒作手法。
然而,有些一两年前离职的员工曾表达过担忧,这让人不免感到不安。
难道我们真的已经站在ASI的边缘?
OpenAI被曝训出GPT-5,但雪藏
最近关于GPT-5的讨论格外火热,尤其是Alberto Romero撰写的文章《关于GPT-5的传闻会改变一切》,以及Lesswrong上关于推理扩展对AI安全影响的讨论。在这篇讨论的评论区中,Gwern Branwen进行了详细的回复。
这两篇文章传达的核心思想基本一致,均认为OpenAI和Anthropic内部已经开发出了更强大的模型,但选择不向公众发布,原因在于考虑到公众使用的成本,使用强大模型生成合成数据,通过蒸馏增强小型模型的性能,更为明智。这意味着AI模型将通过递归自我改进不断提升其能力,逐渐形成更为强大的智能,不再依赖传统的发布和更新模式。
我认为这种可能性相当高。Sam Altman今天宣布o3-mini即将推出,并在评论区回答了关于GPT-5和o系列模型的提问:

根据他的说法,虽然GPT-5的发布日期和性能目前尚不明朗,但用户应该会对此感到满意。预计在2025年将尝试将GPT系列与o系列进行合并。
两篇文章的摘要:
关于GPT-5的传闻会改变一切
- GPT-5的存在但未发布:假设GPT-5已经训练完成,但OpenAI选择不公开发布,原因在于内部使用的效率远高于将其发布给数百万用户。
- 蒸馏过程:OpenAI及其他实验室(如Anthropic)利用强大的模型生成合成数据,通过蒸馏提升小型模型的性能。
- 成本与性能的权衡:鉴于GPT-5和其他大型模型的高成本,OpenAI可能选择将其用于内部,而非公开发布,这与Anthropic的Claude 3.5相似。
- AI的发展趋势:AI模型的趋势是小型化、低成本,同时保持高性能,以降低推理开销。OpenAI可能在等待更理想的发布时机。
- AGI与商业目标:OpenAI或许推迟GPT-5的发布,以避免触发AGI相关的法律框架,并保持与微软的灵活合作。
- 未来的AI发展模式:OpenAI的核心目标转向开发支持下一代模型的教师模型,而非依赖传统的模型发布。
Gwern Branwen的观点
- 自我对弈与扩展范式:像o1这样的模型主要并非用于直接部署,而是为了为下一个模型生成训练数据进行优化。
- 模型小型化与低成本:经过提炼的训练数据可以产生更小、更便宜的模型,这些模型在能力上能与更大的模型相媲美。
- AI递归自我改进:AI模型将通过递归自我改进不断提升性能,形成更强大的智能,摆脱传统的发布与更新机制。
- AlphaGo式的发展路径:如同AlphaGo和AlphaZero的演变,未来的AI可能会发展成既强大又廉价的系统,能够自动化研发,达成超智能的目标。
- OpenAI的突破感:OpenAI对AI发展的乐观情绪表明,他们已突破某些临界点,向AGI和超智能迈进,未来的进展可能呈指数级增长。
下面附上两篇文章的完整翻译:
关于GPT-5的传闻会改变一切
如果我告诉你GPT-5确实存在,并且不仅仅是存在,而是正在悄然改变世界,从你看不见的地方开始呢?这里有一个假设:OpenAI构建了GPT-5,但将其保留在内部,因为与将其发布给数百万ChatGPT用户相比,内部使用的投资回报率要高得多。而且,他们所获得的回报并非金钱,而是其他的东西。正如你所见,这个想法本身并不复杂;真正的挑战在于将那些指向它的线索串联起来。这篇文章将深入探讨为何我认为这一切都能解释得通。
我要明确一点:这纯粹是猜测。虽然有一些公开的证据,但没有泄漏或内部传闻确认我是对的。事实上,我正在通过这篇文章构建这个理论,而不仅仅是分享它。我没有内部信息——即便我有,我也会签保密协议。这个假设之所以令人信服,是因为它有道理。老实说,除了这个,我还能提供什么更多的线索让这个谣言传得更广呢?
这就由你来决定是否原谅我了。即使我错了——我们迟早会知道——我认为这也是一个有趣的侦探练习。我邀请你在评论中进行猜测,但请保持建设性和深思熟虑。而且,请先完整阅读这篇文章。除此之外,任何辩论都是欢迎的。
I. Opus 3.5的神秘消失
在讨论GPT-5之前,我们得去拜访一下它的远亲,另一个同样失踪的家伙:Anthropic的Claude Opus 3.5。
正如你所知,三大AI实验室——OpenAI、Google DeepMind和Anthropic——都提供一系列模型,旨在覆盖价格/延迟与性能的各种需求。OpenAI提供了像GPT-4o、GPT-4o mini、o1和o1-mini等选择;Google DeepMind提供了Gemini Ultra、Pro和Flash;而Anthropic则有Claude Opus、Sonnet和Haiku。目标很明确:尽可能满足不同客户的需求。一些客户优先考虑顶级性能,无论成本如何,而其他客户则寻找既实惠又足够好的解决方案。到目前为止,一切顺利。
但在2024年10月,发生了一件奇怪的事情。大家原本都在等待Anthropic发布Claude Opus 3.5,以回应2024年5月发布的GPT-4o。然而,2024年10月22日,他们发布了更新版的Claude Sonnet 3.5(人们开始称之为Sonnet 3.6)。Opus 3.5却毫无踪影,似乎让Anthropic失去了一个与GPT-4o直接竞争的模型。奇怪吧?以下是人们讨论的内容和Opus 3.5实际发生的事情的时间线:
- 2024年10月28日,我在我的每周回顾中写道:“[有]关于Sonnet 3.6的传言称,它是一个失败的训练过程中间检查点,原计划是为了备受期待的Opus 3.5。”同样在10月28日,一个帖子出现在r/ClaudeAI的子版块:“Claude 3.5 Opus已被取消”,并附有一条指向Anthropic模型页面的链接,直到今天,页面上没有提到Opus 3.5。有些人猜测,取消这一版本是为了在即将到来的融资轮次前保持投资者的信任。
- 2024年11月11日,Anthropic的CEO Dario Amodei在Lex Fridman的播客中澄清了这些传闻,他否认了他们放弃了Opus 3.5:“虽然没有给出确切的日期,但据我们所知,计划依然是发布Claude 3.5 Opus。”谨慎且含糊,但有效。
2024年人工智能领域的变化与挑战
2024年11月13日,彭博社对此进行了深入报道,确认了之前流传的消息:“经过训练后,Anthropic发现3.5 Opus在评估中表现优于旧版本,然而未能达到预期目标,尤其是考虑到模型的规模以及构建和运营成本。”可以看出,Dario在回应时并未给出确切的时间表,尽管Opus 3.5的训练没有落空,结果却让人失望。值得注意的是,报道集中在性能与成本的相对关系上,而非单一的性能表现。
2024年12月11日,半导体专家Dylan Patel及其Semianalysis团队给出了最终的剧情反转,为这一事件提供了全新的视角。他们将所有数据点结合成一个清晰的叙述:“Anthropic已经完成Claude 3.5 Opus的训练,模型表现理想且扩展适当……但Anthropic并没有选择发布。这是因为,该公司将Claude 3.5 Opus用于生成合成数据,并进行奖励建模,从而显著提升了Claude 3.5 Sonnet的性能,同时也结合了用户数据。”
综合来看,Anthropic确实完成了Claude Opus 3.5的训练,但他们选择放弃这个名称,是因为其性能未能合理支撑推理的成本。Dario认为不同的训练可能会产生更好的效果,因此他不愿透露具体的发布时间。同时,彭博社也确认了其性能优于现有模型,但在推理成本的背景下效果并不显著。Dylan及其团队揭示了Sonnet 3.6与Opus 3.5之间的关系:后者被内部用于生成合成数据,以提升前者的表现。
如下图所示:

II. 更优越、更小且更经济?
利用强大且昂贵的模型来生成数据,从而提高稍微弱一些、成本更低的模型性能的过程称为蒸馏。这是一种常见的做法。这项技术使得人工智能实验室能够通过蒸馏来改进其小型模型,超越单纯依赖额外预训练的效果。
蒸馏的方法有很多,但我们不打算深入探讨。重要的是,强大的模型充当“教师”,使“学生”模型从【小型、便宜、快速】转变为【小型、便宜、快速】+ 强大。蒸馏过程将强大的模型转化为价值源泉。Dylan解释了为什么Anthropic选择通过Opus 3.5与Sonnet 3.6的搭配进行蒸馏是合理的:
新版Sonnet与旧版Sonnet在推理成本上没有显著差异,但模型的表现却发生了变化。从基于成本的角度来看,发布3.5 Opus并不划算,相比之下,继续训练3.5 Sonnet以获取更高的性能更为明智。
再一次,我们回到了成本的问题:蒸馏过程能够保持较低的推理成本,同时提升模型的性能。这正是对彭博社报道中提出的核心问题的直接回应。Anthropic不发布Opus 3.5,除了因为结果不理想外,还因其在内部更具价值。(Dylan提到,这也是为什么开源社区能迅速追赶上GPT-4——因为他们直接从OpenAI的资源中提取优势。)
最引人注目的发现是什么?Sonnet 3.6不止是优秀,甚至在某些方面超越了GPT-4o。通过对Opus 3.5的蒸馏,Anthropic的中端模型超越了OpenAI的旗舰产品,这也很可能与其他因素有关,毕竟在AI领域,五个月是一个不小的时间跨度。突然间,高成本被证明并不是高性能的可靠指标。
那么,“更大即更好”的观念又何在?OpenAI的CEO Sam Altman曾警告说,这一观念已经过时。我也曾对此进行过讨论。曾几何时,顶尖实验室对于其宝贵的知识讳莫如深,停止了数据共享。参数数量不再是衡量模型的唯一标准,我们应当将焦点转向基准性能。OpenAI最后一次公开的模型大小是2020年的GPT-3,参数量为1750亿。到2023年6月,关于GPT-4的传闻称其为一个专家混合模型,总参数量约为1.8万亿。Semianalysis随后在详细评估中确认,GPT-4的参数量为1.76万亿。这是在2023年7月。
直到2024年12月,Ege Erdil(EpochAI的研究员,一家专注于人工智能未来影响的机构)估算出,领先的AI模型——包括GPT-4o和Sonnet 3.6——明显小于GPT-4(尽管它们在基准测试中的表现均超越GPT-4):
……当前的前沿模型,如原版GPT-4o和Claude 3.5 Sonnet,可能比GPT-4小一个数量级,4o大约有2000亿个参数,3.5 Sonnet大约为4000亿个参数……不过这个估算可能存在较大误差,可能有2倍的偏差,因为我是根据粗略的方式得出的。
他详细解释了自己如何得出这一结论,尽管各大实验室并未公布任何架构细节,但这并不妨碍我们分析。重要的是,真相逐渐浮出水面:Anthropic和OpenAI显然走在同一条道路上。他们最新的模型不仅性能提升,更是相较于前一代更加小巧、经济。我们知道,Anthropic通过将Opus 3.5蒸馏至Sonnet 3.6实现了这一目标。那么,OpenAI又做了些什么呢?

III. 推动人工智能实验室发展的共通力量
有人可能会认为,Anthropic的蒸馏策略是基于特定情境的结果——即Opus 3.5的训练结果不佳。然而,实际上,Anthropic的境况并非孤例。Google DeepMind和OpenAI在他们最新的训练中也报告了不尽如人意的成果。(要记住,不理想并不意味着模型更差。)这些原因对我们而言并不重要:收益递减因缺乏数据而加剧、Transformer架构固有限制、预训练规模法则的瓶颈等。不过,Anthropic的独特情况在实际中是相当普遍的。
但是,回顾彭博社的报道:性能指标的好坏必须考虑成本的相对性。这是另一个共通因素吗?答案是肯定的。Ege解释了原因:在ChatGPT/GPT-4的热潮之后,市场需求激增。生成式AI的迅速崛起使得实验室难以跟上潮流,导致了持续的损失。这一局面迫使他们都开始降低推理成本(训练过程是一锤子买卖,而推理成本则随着用户数量的增加而成比例上升)。如果每周有3亿人使用你的AI产品,运营成本可能会变得难以承受。
无论是什么促使Anthropic从Opus 3.5中蒸馏出Sonnet 3.6,都会对OpenAI产生多重影响。蒸馏之所以奏效,是因为它将这两个普遍存在的挑战转化为优势:通过为用户提供更小的模型来解决推理成本问题,同时避免因性能不佳而引发公众反感,因为较大的模型并未发布。
Ege提出,OpenAI可能采取了一种替代策略:过度训练。这个想法是用比最优计算更多的数据训练一个小型模型:“当推理成为你在模型上支出的主要部分时,最好是……用更多的Token来训练较小的模型。”但过度训练如今已不再可行。人工智能实验室已经耗尽了高质量的预训练数据源。Elon Musk与Ilya Sutskever最近几周都对此表示了认可。
我们再次回到蒸馏的话题。Ege总结道:“我认为,GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型中蒸馏出来的。”
至此,所有线索显示,OpenAI正在采取与Anthropic对Opus 3.5所采取的相似策略(训练并隐藏),并出于相同的原因(不理想的结果与成本控制)。这是一个重要发现。但值得注意的是,Opus 3.5依然被隐藏着。OpenAI的类似模型又在哪里呢?它是否藏在公司某个秘密地点?你敢猜测它的名字吗……?

IV. 先驱者必须为后辈铺路
我在分析开始时,专注于研究Anthropic的Opus 3.5案例,因为这是我们掌握信息最丰富的情形。接着,我通过蒸馏的概念将其与OpenAI联系起来,阐释了推动Anthropic发展的根本力量同样也是推动OpenAI的原因。然而,我们的理论中出现了一个新障碍:由于OpenAI是行业先行者,他们可能面临Anthropic等竞争对手尚未遇到的问题。
其中一个障碍是训练GPT-5所需的硬件成本。Sonnet 3.6可以与GPT-4o相媲美,但其发布时滞了五个月。我们应当假设,GPT-5将处于另一个层次,更强大、更复杂。而且不仅推理成本高,训练成本也将非常昂贵,可能达到五亿美元。使用现有的硬件,是否能实现这一目标?
Ege再次出手解救:是的。为3亿人提供这样的大型模型服务是难以承受的,但训练却是极其简单的:
原则上,即使是我们目前的硬件,也足以支持训练比GPT-4更大的模型:例如,GPT-4的50倍版本,拥有大约100万亿个参数,可能能够以每百万输出Token3000美元、每秒输出10-20个Token的速度进行服务。然而,为了使这种规模可行,这些大模型必须为使用它们的客户释放出巨大的经济价值。
然而,承担如此巨额的推理费用,对微软、谷歌或亚马逊(OpenAI、DeepMind和Anthropic的资助方)来说,是不具成本效益的。那么他们将如何解决这个问题呢?很简单:如果他们计划向公众提供几万亿参数的模型,就需要“释放大量的经济价值”。但显然,他们并不打算这样做。
OpenAI的未来:在AGI之路上的犹豫与挑战
他们开始对模型进行训练,并发现其“性能超越了现有产品”。然而,他们也不得不承认,尽管有所进步,但“现阶段的成果尚不足以证明维持其运行的高昂成本是合理的。”这一说法似乎有些耳熟,恰与《华尔街日报》一个月前对GPT-5的评述如出一辙,甚至与彭博社对Opus 3.5的描述也十分相似。
尽管他们报告的结果令人失望(虽然他们可以在叙述中进行一定的操控),但他们依然决定将其作为大型教师模型,用以培养更小的学生模型。最终,他们发布了诸如Sonnet 3.6和GPT-4o这样的产品,我们欣喜于其价格亲民且性能良好。虽然我们对Opus 3.5和GPT-5的期待依然高涨,但他们的收益似乎依旧在不断增加。
V. Altman先生,您还有更多理由吗?
经过一番研究,我对这一切仍感到犹豫。虽然所有迹象表明这对OpenAI来说是合理的,但合理与事实之间总有一段距离。我不会为您填补这段空白——毕竟,这也只是猜测。然而,我可以进一步支持我的论点。
还有没有其他证据表明OpenAI在这种模式下运作?除了日益增加的亏损和不如预期的性能,他们是否还有更多原因来延迟GPT-5的发布?我们能否从OpenAI高管对GPT-5的公开声明中获取信息?在反复推迟模型发布的过程中,他们是否冒着损害声誉的风险?毕竟,OpenAI是人工智能革命的先锋,而Anthropic则在其阴影中运作。Anthropic可以这样做,但OpenAI是否能够承担这样的风险呢?或许并非如表面所见。
谈到资金,让我们深入探讨OpenAI与微软合作的一些细节。首先,众所周知的AGI条款。在OpenAI的一篇有关其结构的博客文章中,他们列出了五项治理条款,阐述了其运作方式、与非营利组织的关系、董事会的角色以及与微软的合作。第五条款规定,AGI被定义为“一个在大多数经济价值工作中超越人类的高度自主系统”,并且一旦OpenAI董事会宣布达成AGI,“这样的系统将不再适用于知识产权许可及与微软的其他商业条款,微软仅适用于AGI之前的技术。”
无需赘言,两家公司都希望维持良好的合作关系。尽管OpenAI制定了这一条款,但他们会竭尽所能避免遵守它。推迟发布可能被视作AGI的系统便是一种策略。“但GPT-5肯定不是AGI,”您可能会这样说。我则会指出,存在一个几乎无人知晓的事实:OpenAI与微软之间有一个关于AGI的隐秘定义,尽管这个定义在科学上没有实质意义,但在法律上却界定了他们的合作:AGI被定义为一个“能创造至少1000亿美元利润的AI系统。”
如果OpenAI假设性地推迟发布GPT-5,声称其尚未准备好,这不仅是为了控制成本和防止公众反响,还有一个隐含的目的:他们可以避免被迫说明是否达到了AGI的分类标准。尽管1000亿美元的利润是一个庞大的数字,但没有什么可以阻止雄心勃勃的客户在此基础上追求如此巨额的利润。另一方面,让我们明确一点:如果OpenAI预计GPT-5每年能产生1000亿美元的经常性收入,他们绝对不介意激活AGI条款,与微软分道扬镳。
公众对OpenAI不发布GPT-5的反应,往往基于一种假设:他们之所以不发布,是因为模型尚未达到标准。即使这是事实,仍然没有人停下来思考OpenAI是否存在内部用途,超越外部市场需求。开发一个优秀的模型与创建一个能以低成本服务于3亿人的优秀模型之间,存在着巨大的差异。如果你无法做到,你就不会去做;而如果你不需要去做,你也就不必去做。他们曾经向我们展示最出色的模型,因为他们需要我们的数据,但如今情况已经大为不同。他们不再追求我们的资金支持,那是微软的事情。他们所追求的是AGI,进而是ASI(超人工智能)。他们的目标是创造一种遗产。

VI. 这一切为何会改变游戏规则
随着讨论的深入,我相信我已经提供了足够的论据,足以支持一个有力的观点:OpenAI可能已经在内部完成了GPT-5,正如Anthropic完成了Opus 3.5一样。甚至可以合理推测,OpenAI可能根本不会对外发布GPT-5。如今,公众在评估性能时,不再仅仅是与GPT-4o或Claude Sonnet 3.6进行比较,而是与o1/o3进行对比。随着OpenAI探索测试时间扩展的原则,GPT-5所需达到的标准也在不断提高。他们如何能发布一个真正超越o1、o3以及即将推出的o系列模型的GPT-5呢?而且,他们现在已不再需要我们的资金或数据。
训练新的基础模型——如GPT-5、GPT-6等——对OpenAI而言始终是有意义的,但这并不一定意味着它会作为一款产品发布。这种时代或许已经结束。如今,唯一对他们重要的目标便是持续生成更优质的数据,以支持下一代模型。从现在开始,基础模型可能会在后台默默运作,支持其他模型完成其单独无法完成的任务——就像一位古老的智者在神秘的山洞中传递智慧,唯一的不同在于,这个山洞是一个庞大的数据中心。无论我们是否能够见到它,我们都会体验到它带来的智慧的成果。

即使GPT-5最终得以发布,这一事实也似乎几乎无关紧要。如果OpenAI和Anthropic真正启动了递归自我改进的机制(尽管人类仍然在其中扮演角色),那么无论他们向我们发布什么,已经不再重要。他们将越走越远,犹如宇宙膨胀之迅速,远处的星系光芒再无法抵达我们。
或许这正是OpenAI在短短三个月内,从o1跃升至o3的原因。或许这也解释了他们为何能迅速跳升至o4和o5。这或许也是为何他们最近在社交媒体上表现得如此兴奋,因为他们已实施了一种崭新的改进运营模式。
你真的认为接近AGI意味着能够随时掌控越来越强大的AI吗?他们会将每一次的进步都公开发布供我们使用吗?当然不可能。正如他们所言,他们的模型将使他们走得越来越远,以至于其他人再也无法追赶。每一代新模型都是逃逸速度的引擎。从平流层的高度,他们已经向我们挥手告别。
如今,我们还不清楚他们是否会再次回归。
第二篇,Gwern Branwen的观点:
我认为在这个讨论中,存在一个重要的自我对弈扩展范式的缺失:像o1这样的模型的核心目的并非仅仅是部署,而是为下一个模型生成训练数据。o1解决的每个问题现在都成为了o3的训练数据点(例如,任何o1会话找到的正确答案,都可以经过优化,去除冗余,生成整洁的转录文本,以训练更为精准的直觉)。这表明,这种扩展范式最终可能与当前的训练时间范式极为相似:大量大型数据中心辛勤工作,训练出一个最终的前沿模型,代表着最高的智能,而这个模型通常会以低搜索的方式使用,并转化为更小、更便宜的模型,以适应那些低/无搜索仍然过度的应用场景。在这些大型数据中心,工作负载几乎完全与搜索相关(因为相比推出模型,实际的微调过程更为便宜且容易),但这对于其他人而言并不重要;如同以往,你看到的基本上是高端GPU与兆瓦电力的投入,等上三至六个月,一款更智能的AI便会问世。
我实际上有些惊讶OpenAI至少还发布了o1-pro,而不是将其保密,并把计算资源投入更多o3的训练等启动工作。(显然,这与Anthropic和Claude-3.6-opus的经历类似——它并没有“失败”,他们只是选择保持私密,并将其提炼为一个小巧且异常聪明的Claude-3.6-sonnet。)
如果你想知道为什么OpenAI的团队在Twitter上突然表现得如此异常、几乎是兴奋地乐观,从最初的4o模型到o3(以及现在它所达到的高度!)的改进,或许这就是原因。这就像在观察AlphaGo的Elo曲线:它只会不断上升…一直上升…一直上升…
或许他们感觉已经“突破”了,终于跨越了最后的临界门槛,从仅仅是每个人几年后都会复制的前沿AI工作,向真正的起飞阶段迈进——破解了智能,达到了递归自我改进的阶段。在o4或o5之后,能够自动化AI研发,完成剩下的部分:Altman在2024年11月说,“我能看到一条道路,按照我们所做的工作,我们的进展会不断复合,过去三年取得的进展将持续下去,不论是三年、六年,还是九年,或其他任何时间”,变成了一个星期前的说法:“我们现在有信心知道如何构建我们传统理解中的AGI…我们开始将目标放得更远,超智能,真正意义上的超智能。我们喜欢我们当前的产品,但我们是为辉煌的未来而来。凭借超智能,我们可以做任何事。”(让DeepSeek去追逐他们的尾灯吧;一旦超智能研究能够自给自足,他们将无法获得所需的大型计算机来竞争,这几乎是字面上的。)
然后你就可以“两全其美”:最终的AlphaGo/Zero模型不仅是超人类的,而且非常便宜也能运行。(只需搜索几个棋步,就能达到超人类的水平;即使是单步前传也能接近职业人类水平!)
如果你查看相关的扩展曲线——我再次建议阅读Jones 2021*——原因便会变得明了。推理时的搜索就如同一种兴奋剂,能够瞬间提升你的分数,但很快就会趋于平稳。很快,你就需要使用更智能的模型来改善搜索本身,而不仅仅是进行更多的搜索。(如果仅仅通过搜索能够取得成功,那么国际象棋早在1960年代就应当被解决。相比于每秒钟一个国际象棋大师能搜索的几步棋,搜索更多的位置并不困难。如果你想得到“Hello World”文本,几只猴子在打字机上或许能做到;但如果你想得到《哈姆雷特》的全文,最好还是开始克隆莎士比亚。)幸运的是,现在你手头有训练数据和模型,可以用来创造一个更智能的模型…
Sam Altman(2024年12月20日):
### 成本与性能的悖论:AI 模型训练的未来趋势在今天的热闹中,似乎有些内容被忽视了:
在许多编码任务中,o3-mini将以巨大的成本降低超越o1!
我们可以预见,这一发展趋势将会持续下去。然而,依赖于不断增加的投资来获得边际效能的提升,显得有些异常。因此,重要的是要意识到,资金可以用于提升某些特定输出的模型表现……但这里的“你”可能指的是“人工智能实验室”,实际上是在为提升模型本身而花费,而不仅仅是为了应对某个常见问题的临时解决方案。
这意味着,外部观察者或许永远无法接触到中间模型,就像围棋高手无法看到 AlphaZero 在训练过程中经历的随机检查点一样。此外,如果确实存在“部署成本比目前高出1000倍”的情况,这也正是为何不选择部署的原因所在。为何要浪费计算资源为外部用户提供服务?不如继续进行训练,将成果提炼回收,最终你将得到一个部署成本仅为最初100倍、随后10倍,接着是1倍,最终低于1倍的更高效模型……
因此,在搜索和测试的过程中,最终的范式可能会显得异常熟悉,特别是当考虑到所有的二阶效应及新的工作流程时。也许现在是回顾 AlphaZero 和 MuZero 的训练与部署时机,同时还要关注计算机围棋和国际象棋的后续发展,以此作为一种预示。
*在此提到的 Jones 与其他参考文献(如 Snell)相比,更具相关性,因为 Snell 假设了一个静态、固定的模型,并关注平均表现,而非处理最复杂情况(尽管最具挑战性的问题往往也蕴含最大的经济价值——解决那些已经被其他模型处理过的简单问题,实际上并不会带来太多利益,即便你能以更低的成本解决)。在这种背景下,反复使用小而简单、便宜的模型来应对简单任务,可能会超越一个固定的大模型。但这与长期的动态无关,因为你正在进行新的模型训练。这与曾经流行的“过度训练小模型是计算最优的”观点相似——这一说法只在一个明显错误的假设下成立,即假设你无法提炼、量化或剪枝大模型。然而,实际上你是可以做到的。
