共计 11418 个字符,预计需要花费 29 分钟才能阅读完成。
最近,种种迹象显示OpenAI可能经历了一些重大变化。

AI研究者Gwern Branwen撰写了一篇有关OpenAI o3、o4、o5的文章。
他指出,OpenAI似乎已经突破了一个重要的临界点,达到了“递归自我改进”的阶段——o4或o5能够实现AI研发的自动化,完成剩余的任务!
文章的主要内容包括:
- OpenAI可能会选择将其“o1-pro”模型保密,利用现有的计算能力训练更高级的o3模型,这一策略与Anthropic的方式相似;
- 他们可能对自己在AI技术上的进展充满信心,正朝着ASI的方向迈进;
- 目标是创造一种高效的超级智能AI,类似于AlphaGo/Zero所追求的理想;
- 推理过程中的搜索最初可能提高模型性能,但最终会遇到瓶颈。
甚至有传言称,OpenAI与Anthropic已悄然训练出了GPT-5级别的模型,但两者都选择将其“封存”。
其原因在于,虽然这些模型的能力十分强大,但运营成本却高得惊人,因此利用GPT-5提炼出GPT-4o、o1、o3等模型会更具经济效益。
更令人关注的是,OpenAI的安全研究员Stephen McAleer在过去两周的推文,简直像是科幻小说的情节:
我怀念曾经的AI研究,那时我们还不知道如何创造超级智能。
在前沿实验室,许多研究者对AI的短期影响非常重视,而实验室外几乎没人充分讨论安全问题。
如今,控制超级智能的研究已迫在眉睫。
我们该如何应对狡猾的超级智能?即使拥有完美的监控工具,它是否会说服我们将其从沙箱中释放?
总的来说,越来越多OpenAI的员工暗示他们在内部研发ASI。
这究竟是真是假?是否是CEO奥特曼的“谜语风格”被下属们所模仿?

许多人认为,这只是OpenAI惯常的炒作手法。
然而,让人感到不安的是,一些在一两年前离开的员工曾表达过担忧。
难道我们真的已经站在ASI的边缘?
OpenAI被曝训出GPT-5,但雪藏
最近关于GPT-5的讨论热度不减,第一篇是Alberto Romero撰写的《关于GPT-5的传闻改变一切》,第二篇则是Lesswrong上探讨推理扩展对AI安全影响的文章,在评论区Gwern Branwen对此作出了详细回复。
这两篇文章的核心观点基本一致,均认为OpenAI和Anthropic内部可能已经实现了更强大的模型,但选择不对外发布,原因在于考虑到公众使用的成本,最佳策略是利用强大的模型生成合成数据,并通过蒸馏方法提升小型模型的性能。这也意味着,AI模型将通过递归自我改进不断提升,逐渐形成更强大的智能,摆脱传统发布和更新的模式。
我认为这种观点很有可能。Sam Altman今天宣布o3-mini即将发布,并在评论中回应了大家对GPT-5以及o系列模型的疑问:

据他所言,虽然GPT-5的发布时间和性能尚不确定,但用户将会感到满意。2025年将尝试将GPT系列与o系列进行整合。
两篇文章的摘要:
关于GPT-5的传闻会改变一切
- GPT-5存在但未发布:假设GPT-5已经训练完成,但OpenAI选择不公开发布,因为内部使用的回报率远高于对外发布。
- 蒸馏过程:OpenAI及其他实验室(如Anthropic)利用强大模型生成合成数据,通过蒸馏方法提升小型模型的性能。
- 成本与性能考量:GPT-5及其他大型模型的高成本可能导致OpenAI选择内部使用而非公开发布,这与Anthropic的Claude 3.5相似。
- AI的发展趋势:未来AI模型将趋向小型化和低成本,同时保持高性能,以降低推理成本。OpenAI或许在等待更合适的发布时机。
- AGI与商业目标:OpenAI可能推迟GPT-5的发布,以规避AGI的法律框架,并保持与微软合作的灵活性。
- 未来的AI发展模式:OpenAI的核心目标转向开发支持下一代模型的教师模型,而非依赖传统的模型发布方式。
Gwern Branwen的观点
- 自我对弈与扩展范式:像o1这样的模型主要目的并非直接部署,而是为下一个模型生成训练数据。
- 模型小型化与低成本:经过精炼的训练数据可以生成更小、更便宜的模型,这些模型的能力可与更大模型相媲美。
- AI递归自我改进:AI模型将通过递归自我改进不断提升性能,形成更强大的智能,摆脱传统发布和更新模式。
- AlphaGo式发展路径:如AlphaGo、AlphaZero的演变,未来的AI可能发展成既强大又便宜的系统,能够自动化研发,实现超智能。
- OpenAI突破感:OpenAI在AI发展中的乐观态度表明,他们已经突破某些关键门槛,正朝着AGI和超智能迈进,未来的进展将呈指数级增长。
以下是两篇文章的全文翻译:
关于GPT-5的传闻会改变一切
假设我告诉你,GPT-5确实存在,且不仅仅是存在,而是暗中影响着这个世界,从你看不见的地方开始呢?设想一下:OpenAI已经构建了GPT-5,但将其保留在内部,因为与将其发布给数百万ChatGPT用户相比,内部使用能获得更高的投资回报。而且,他们获得的回报不仅仅是金钱,还有其他方面的利益。这个想法并不复杂,真正的挑战在于将那些暗示它存在的线索串联起来。本文将深入探讨为什么我认为这一切都是合理的。
需要强调的是,这只是我的猜测。虽然有一些公开的证据,但并没有任何泄密或内部传闻确认我的观点。实际上,我正在通过这篇文章构建这个理论,而不仅仅是分享它。我并没有内部消息——即使我有,也会受到保密协议的限制。这个假设之所以引人信服,是因为它合乎逻辑。老实说,除了这个,我还能提供什么更多的线索让这个谣言传得更广呢?
是否原谅我由你来决定。即便我错了——这一点我们早晚会知道——我认为这仍然是一个有趣的侦探练习。我欢迎你在评论中进行讨论,但请保持建设性和深思熟虑。同时,请先完整阅读这篇文章。除此之外,任何辩论都是受欢迎的。
I. Opus 3.5的神秘消失
在讨论GPT-5之前,我们有必要关注它的远亲,另一位同样失踪的角色:Anthropic的Claude Opus 3.5。
正如大家所知,三大AI实验室——OpenAI、Google DeepMind和Anthropic——都提供一系列模型,旨在满足不同价格、延迟与性能的需求。OpenAI提供了GPT-4o、GPT-4o mini、o1和o1-mini等选项;Google DeepMind则有Gemini Ultra、Pro和Flash;而Anthropic推出了Claude Opus、Sonnet和Haiku。目标非常明确:尽可能满足不同客户的需求。有些客户优先考虑顶级性能,而其他客户则寻找既实惠又足够好的解决方案。到目前为止,一切都很顺利。
然而,2024年10月,发生了一件奇怪的事情。大家本期待Anthropic发布Claude Opus 3.5,以回应2024年5月发布的GPT-4o。然而,在2024年10月22日,他们发布了更新版的Claude Sonnet 3.5(人们开始称之为Sonnet 3.6)。Opus 3.5却完全没有消息,似乎Anthropic失去了一个与GPT-4o直接竞争的模型。这让人感到困惑。以下是人们讨论的内容以及Opus 3.5实际发生的事情的时间线:
- 2024年10月28日,我在每周回顾中写道:“[有] 关于Sonnet 3.6的传言称,它是一个失败训练过程中的中间检查点,原本是为备受期待的Opus 3.5。”同样在10月28日,r/ClaudeAI子版块出现了一篇帖子称:“Claude 3.5 Opus已被取消”,并附有一条指向Anthropic模型页面的链接,直到今天,页面上没有提到Opus 3.5。有些人猜测,取消这一版本是为了在即将到来的融资轮次前保持投资者的信任。
- 2024年11月11日,Anthropic的CEO Dario Amodei在Lex Fridman的播客中澄清了这些传闻,他否认了他们放弃Opus 3.5:“虽然没有给出确切的日期,但据我们所知,计划依然是发布Claude 3.5 Opus。”谨慎且含糊,但有效。
2024年发展回顾:Anthropic与Opus 3.5的真相
2024年11月13日,彭博社发布了一则报道,确认了之前的传言。文章指出,Anthropic在对3.5版本的评估中发现其表现优于旧版本,但未达到预期效果,尤其是在模型规模和运行成本方面。Dario之所以未给出具体发布日期,正是因为尽管Opus 3.5的训练结果不算失败,但其表现依然令人失望。报道特别强调,关注的焦点是性能与成本的对比,而非单纯的性能。
而在2024年12月11日,半导体专家Dylan Patel及其Semianalysis团队则提供了一个意想不到的转折,他们将所有数据整合成了一幅完整的画面:“Anthropic已完成Claude 3.5 Opus的训练,模型表现良好,扩展也得当,然而未进行公开发布。原因在于,Claude 3.5 Opus主要用于生成合成数据并进行奖励建模,从而显著提升了Claude 3.5 Sonnet的性能,同时还结合了用户数据。”
总结来说,Anthropic确实进行了Claude Opus 3.5的训练,但由于其性能未能足够支撑推理成本,因此放弃了该名称。Dario认为,尝试不同的训练方法可能会带来更理想的结果,因此他未能给出具体的发布时间。彭博社的报道确认了其在性能上优于现有模型,但相较于推理成本,效果却显得不够明显。Dylan及其团队进一步揭示了Sonnet 3.6和Opus 3.5之间的关联:后者被内部利用以生成合成数据,从而提升前者的表现。
如图所示:

II. 更小更便宜的高效模型
利用强大但高昂的模型生成数据,从而增强性能稍逊的小型模型的过程被称为蒸馏(distillation),这一做法已相当普遍。这种技术使得人工智能实验室能够通过蒸馏提升小型模型的表现,超越单靠额外预训练所能达到的效果。
蒸馏技术有多种实现方式,然而我们不打算对此进行深入探讨。需要强调的是,强大的模型作为“教师”,可以将“学生”模型从【小型、便宜、快速】转变为【小型、便宜、快速】+ 强大。蒸馏过程将强大的模型转化为一座金矿。Dylan解释了为何Anthropic选择通过Opus 3.5与Sonnet 3.6的组合进行蒸馏是合理的:
新版Sonnet与旧版Sonnet的推理成本几乎没有显著变化,但模型性能却有所提升。在考虑成本的情况下,发布3.5 Opus并不具备经济合理性,相比之下,继续训练的3.5 Sonnet更具价值。
我们再次回到了成本这一核心问题:蒸馏不仅能够保持低推理成本,还能带来性能提升。这正是对彭博社报道中成本与性能关系的直接回应。Anthropic之所以未选择发布Opus 3.5,除了结果未如预期外,内部用途的价值显然更高。Dylan指出,这也是开源社区迅速超越GPT-4的原因——他们从OpenAI的“金矿”中直接提取了价值。
那么,最令人震惊的发现是什么呢?Sonnet 3.6不仅表现出色,还达到了SOTA水平,甚至超越了GPT-4。通过从Opus 3.5进行蒸馏,Anthropic的中阶模型成功超过了OpenAI的旗舰模型,这很可能与其他因素有关,毕竟在AI领域,五个月的时间是相当漫长的。突然之间,昂贵的成本被证实为高性能的虚假代名词。
那么,“更大就更好”的观点又何在?OpenAI的CEO Sam Altman曾警告这一观念已不再适用。我也曾对此发表过看法。曾几何时,顶尖实验室对他们的知识守口如瓶,停止了数据共享。参数数量已不再是可靠的衡量标准,我们开始明智地转向基准性能。OpenAI最后公开的模型大小为2020年的GPT-3,拥有1750亿个参数。到2023年6月,传言称GPT-4是一个混合专家模型,总计约1.8万亿个参数。Semianalysis随后在详细评估中证实了这一点,得出GPT-4的参数量为1.76万亿,这是在2023年7月的结果。
到了2024年12月,EpochAI的研究员Ege Erdil估算出,领先的AI模型——如GPT-4o和Sonnet 3.6——的规模明显小于GPT-4(尽管它们在基准测试中均超越了GPT-4):
……当前的前沿模型,如原版GPT-4o和Claude 3.5 Sonnet,可能比GPT-4小一个数量级,4o约有2000亿个参数,而3.5 Sonnet约为4000亿个参数……不过这个估算可能存在较大误差,可能偏差高达2倍,因为这只是初步推算。
他详细阐述了如何得出这一数字,尽管各大实验室未公开任何架构细节,但这并不妨碍我们进行深入探讨。重要的是,趋势正在显现:Anthropic和OpenAI似乎都朝着相似的方向前进。他们的新模型不仅更具优势,而且在规模和成本上都低于上一代产品。我们知道,Anthropic正是通过将Opus 3.5蒸馏到Sonnet 3.6来实现这一目标。那么,OpenAI又采取了何种措施呢?

III. 推动人工智能实验室发展的普遍力量
或许有人会认为,Anthropic的蒸馏策略是由特定情况所驱动的,尤其是Opus 3.5的训练结果不尽理想。但实际上,Anthropic的境况并非个例。Google DeepMind与OpenAI在他们最新训练中也报告了不尽如人意的结果。(值得注意的是,不理想并不代表模型更差。)造成这一现象的原因各不相同,包括数据缺乏带来的收益递减、Transformer架构的固有限制、预训练规模的瓶颈等等。无论如何,Anthropic的独特情况实际上反映了业界的普遍趋势。
然而,回顾彭博社的报道:性能指标的优劣是相对成本而言的。这是否也是另一个共同因素?答案是肯定的,Ege解释了原因:在ChatGPT和GPT-4热潮之后,需求激增。生成式AI的迅速普及导致实验室难以跟上,从而使亏损不断增加。这促使它们着手降低推理成本(训练过程一般是一锤子买卖,但推理成本则随用户数量和使用频率呈比例增长)。如果每周有3亿人使用你的AI产品,那么运营开支可能瞬间变得难以承受。
推动Anthropic将Sonnet 3.6从Opus 3.5中蒸馏出来的因素,无疑对OpenAI产生了深远影响。蒸馏之所以有效,正是因为它将面临的普遍挑战转化为了一种优势:通过提供更小的模型解决推理成本问题,同时避免因性能不佳而引发公众反感,因为较大的模型未被发布。
Ege还指出,OpenAI可能选择了一种替代方案:过度训练。这个概念是用比计算上最优更多的数据对小型模型进行训练:“当推理成为你在模型上支出的重要或主要部分时,使用更多的Token来训练较小的模型是更明智的选择。”然而,过度训练如今已经不再可行。人工智能实验室已经耗尽了高质量的预训练数据源。Elon Musk与Ilya Sutskever最近几周均对此表示认可。
我们再次回到蒸馏的主题。Ege总结道:“我认为,GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型中蒸馏而来的。”
目前为止,所有拼图的碎片都暗示,OpenAI正在以与Anthropic对Opus 3.5所采取的方式(训练并隐藏)相同的方式(蒸馏)进行运作,并出于相似的原因(糟糕的结果和成本控制)。这是一个令人振奋的发现。然而,值得注意的是,Opus 3.5仍然被隐藏。OpenAI的类似模型又在哪里呢?是否藏在公司的某个角落?你能猜到它的名字吗……?

IV. 先驱者的道路
在撰写这篇分析时,我的起点是研究Anthropic的Opus 3.5故事,因为这是我们掌握信息最多的案例。接着,我通过蒸馏的概念将其与OpenAI联系起来,并探讨推动Anthropic的基本力量同样影响着OpenAI。然而,我们的理论中出现了一个新障碍:由于OpenAI是行业先行者,他们可能面临着Anthropic等竞争对手尚未遭遇的挑战。
其中一个挑战是训练GPT-5所需的硬件要求。Sonnet 3.6可以与GPT-4o抗衡,但其发布延迟了五个月。我们应假设GPT-5处于一个全新的层次,要求更高、规模更大。不仅推理成本增加,训练成本也将大幅上升。我们可能正在谈论高达五亿美元的训练费用。使用现有硬件,是否能够实现这一目标?
Ege再次出手救场,认为是可行的。为3亿人提供这样一个巨型模型的服务是无法承受的,但训练方面却是“轻而易举”:
原则上,即使是我们现有的硬件,也足以支持训练比GPT-4更大的模型;例如,GPT-4的50倍版本,拥有约100万亿个参数,能够以每百万输出Token3000美元、每秒输出10-20个Token的速度进行服务。然而,要使这种规模可行,这些大模型必须为使用者创造大量经济价值。
然而,支付如此高昂的推理费用,对微软、谷歌或亚马逊(OpenAI、DeepMind和Anthropic的资助者)来说,显然是不划算的。那么,他们又该如何解决这一问题呢?答案很简单:如果他们打算向公众提供几万亿参数的模型,就必须“释放大量的经济价值”。但目前显然并不打算如此。
探索OpenAI新动向:为何GPT-5迟迟未见
他们对模型进行了训练,并发现其“表现优于当前产品”。然而,他们不得不承认,模型“尚未取得足够进展,无法证明维持其运行的高昂成本是合理的”。这个观点让人不禁想起一个月前《华尔街日报》对GPT-5的描述,彭博社对Opus 3.5的评价也与此相似。
他们所报告的结果令人失望(尽管准确性多少可以调整),他们总能在叙述中进行修饰。最终,他们决定将其作为大型教师模型,用于提炼出更小的学生模型。随后,这些模型被发布,像Sonnet 3.6和GPT-4o等新产品随之问世,让人欣喜的是,它们价格实惠且性能良好。即使我们对Opus 3.5和GPT-5的期待不断攀升,但他们的收益依然如金矿般闪耀。
V. Altman先生,我们还有更多理由探讨!
当我深入研究时,仍然感到不完全信服。确实,所有迹象表明OpenAI的举动合乎逻辑,但合理性与事实之间总有一段距离。我不会为你弥补这一鸿沟——这毕竟只是推测。然而,我可以进一步支持这个论点。
是否有其他证据显示OpenAI以这种方式运作?除了不尽如人意的性能和日益加剧的亏损,他们是否还有其他原因来推迟GPT-5的发布?从OpenAI高管公开的关于GPT-5的言论中,我们能获取哪些信息?在反复推迟模型发布的过程中,他们是否冒着损害声誉的风险?毕竟,OpenAI是人工智能革命的先锋,而Anthropic则在其庇护下运作。Anthropic可以这样做,但OpenAI呢?或许并非如此简单。
谈到资金问题,让我们深入了解OpenAI与微软的合作细节。首先,有一个众所周知的事实:AGI条款。在OpenAI关于其结构的博客中,他们列出了五项治理条款,阐明了其运作方式、与非营利组织的关系、董事会的职能以及与微软的合作关系。第五条款将AGI定义为“在大多数经济价值领域超越人类的高度自治系统”,规定一旦OpenAI董事会宣布达成AGI,该系统将不再受知识产权许可及与微软的其他商业条款的约束,微软只适用于AGI之前的技术。
显然,两家公司都不希望合作关系破裂。OpenAI虽然制定了这一条款,但会竭尽所能避免遵守。其中一种方式就是推迟发布可能被认定为AGI的系统。“但GPT-5肯定不是AGI,”你可能会说。而我则指出,有一个鲜为人知的事实:OpenAI与微软有一个关于AGI的秘密定义,尽管这个定义在科学上无关紧要,但在法律上界定了他们的合作关系:AGI是一个“能够创造至少1000亿美元利润的AI系统。”
如果OpenAI假设性地推迟发布GPT-5,以“尚未准备好”为借口,他们将实现控制成本和防止公众反响的同时,避免对是否达成AGI的声明。尽管1000亿美元的利润是一个庞大的数字,但没有什么能阻止雄心勃勃的客户在此基础上获得如此利润。另一方面,让我们明确:如果OpenAI预计GPT-5能带来每年1000亿美元的经常性收入,他们便不会犹豫触发AGI条款,与微软分道扬镳。
公众对OpenAI不发布GPT-5的反应,大多基于一个假设,即其不发布是因为模型不够优秀。即便这是事实,也没有人停下来思考OpenAI是否有一个比外部市场需求更为优越的内部用例。在开发出一个优秀模型与创造一个可以以低成本服务于3亿人的模型之间,有着巨大的差别。如果你无法做到,那就放弃。但如果你不需要做到,那就不必去做。曾几何时,他们为了获取我们的数据而提供最佳模型,而现在情况已然不同。他们不再追求我们的资金,那是微软的责任。他们的目标是AGI,进而是ASI(超人工智能)。他们渴望的是留下遗产。

VI. 这一切为何会改变游戏规则
我们接近结尾。相信我已经列举了足够的论据,足以支撑这一观点:OpenAI很可能已经在内部完成了GPT-5,正如Anthropic完成了Opus 3.5一样。甚至可以合理推测,OpenAI可能根本不会发布GPT-5。当前公众对性能的评估,不再单纯是与GPT-4o或Claude Sonnet 3.6的对比,而是与o1和o3的比较。随着OpenAI探索测试时间扩展法则,GPT-5所需达到的标准也在不断提高。它们如何能够发布一个真正超越o1、o3以及即将推出的o系列模型的GPT-5?而且,他们如今不再需要我们的资金或数据。
对OpenAI而言,训练新的基础模型——如GPT-5、GPT-6等——总是有意义的,但不一定以产品形式发布。这样的时代或许已经结束。现在唯一重要的目标是为下一代模型持续生成更优质的数据。从今往后,基础模型可能在后台默默运作,支持其它模型完成其独立无法实现的任务——就像一位隐士在秘密的山洞中传递智慧,唯一不同的是,这个山洞是一个庞大的数据中心。无论我们是否见到他,我们都将经历他智慧带来的影响。

即使GPT-5最终发布,这一事实似乎也变得无关紧要。如果OpenAI与Anthropic真正开启了递归自我改进的进程(尽管人类仍在其中发挥作用),那么无论他们发布什么给我们,都不再重要。他们会越走越远,仿佛宇宙在迅速膨胀,以至于遥远的星系光芒再也无法抵达我们。
或许,这就是OpenAI在短短三个月内,从o1跃升至o3的原因。或许这就是他们跳跃到o4和o5的方式。这也许解释了他们近期在社交媒体上的激动。因为他们已经实施了一种新的改进运作模式。
你真的认为接近AGI意味着能够随时掌控日益强大的AI吗?他们会将每一次进步都公之于众吗?当然不可能。正如他们所言,他们的模型将使他们走得太远,以至于他人无法追赶。每一代新模型都是冲破逃逸速度的引擎。从平流层俯看,他们已经向我们挥手告别。
现在尚不清楚,他们是否会回归。
第二部分,Gwern Branwen的观点:
我认为这里缺少了自我对弈扩展范式的一个重要元素:像o1这样的模型主要目标并非是部署,而是为下一个模型生成训练数据。o1所解决的每个问题现在都成为o3的训练数据点(例如,任何o1会话找到的正确答案,都可以经过精细处理,去除无效信息,生成干净的转录文本,以训练更精细的直觉)。这意味着这种扩展范式最终可能与当前的训练时间范式非常相似:大量大型数据中心辛勤工作,训练出一个前沿模型,代表着最高的智能,这个模型通常以低搜索的方式使用,并转化为更小、更便宜的模型,用于那些低/无搜索的应用场景。在这些大型数据中心,工作负载可能几乎完全与搜索相关(因为实际微调相较发布新模型更为便宜且容易),但这对其他人并无实质意义;就像以前一样,你看到的基本上是高端GPU和兆瓦的电力投入,等三到六个月,一款更智能的AI便会问世。
事实上,我对OpenAI至少发布o1-pro而非将其保密,转而将计算资源投入更多o3训练等启动工作,感到有些惊讶。(显然,这正是Anthropic和Claude-3.6-opus所经历的事情——它并没有“失败”,他们只是选择保持私密,将其提炼成小而便宜但异常聪明的Claude-3.6-sonnet。)
如果你想知道为什么OpenAI的员工在推特上突然显得异常兴奋,看从最初的4o模型到o3(以及现在它所处的位置!)的改进,可能就是原因。这就像是在观察AlphaGo的Elo曲线:它只会不断上升… 一直上升… 一直上升…
或许他们有一种突破的感觉,终于跨越了最后的临界门槛,从仅仅是每个人几年后会复制的前沿AI工作,迈向起飞——打破了智能的界限,达到了递归自我改进的阶段。在o4或o5之后,能够自动化AI研发,完成剩下的部分:Altman在2024年11月表示,“我能看到一条道路,按照我们的工作,我们的进展将会持续复合,过去三年取得的成就将继续,不论是三年、六年,还是九年,或其他任何时间”,而现在则变成了一个星期前的表述,“我们现在有信心知道如何构建我们传统理解中的AGI… 我们开始将目标放得更远,超智能,真正的超智能。我们喜欢当前的产品,但我们是为辉煌的未来而来。凭借超智能,我们可以做到任何事情。”(让DeepSeek去追逐他们的尾灯吧;一旦超智能研究能够自给自足,他们就无法获得所需的大型计算机来竞争,这简直是字面上的。)
然后你就可以实现“两全其美”:最终的AlphaGo/Zero模型不仅超越人类智慧,而且运行成本极低。(只需搜索几个棋步,就能达到超人类水平;即便是单步前传也能接近职业人类水平!)
如果你看看相关的扩展曲线——我再次建议阅读Jones 2021*——原因便变得显而易见。推理时的搜索如同兴奋剂,能迅速提升你的分数,但很快就会趋于平稳。很快,你需要更智能的模型来改善搜索本身,而不仅仅是增加搜索的数量。(如果仅靠搜索能成功,那么国际象棋早在1960年代就该被解决。与每秒钟能搜索若干步棋的国际象棋大师相比,搜索更多的位置并不难。如果你想得到“Hello World”文本,几只猴子在打字机上或许能做到很便宜;但如果你想得到《哈姆雷特》全文,最好还是开始克隆莎士比亚。)幸运的是,你手头有训练数据和模型,可以用来创造一个更智能的模型…
Sam Altman(2024年12月20日):
在今天的喧嚣中,有些内容似乎被忽视了:
在许多编码任务中,o3-mini将以巨大的成本降低超越o1!
我认为这一趋势在未来仍将持续,但通过巨幅增加的投入来实现边际性能的提升,这一方式将显得颇为令人困惑。
值得一提的是,投入资金能够在某些输出中改善模型表现。然而,这里的“你”可能指的是“AI实验室”,因此花费的金钱实际上是用于增强模型本身,而不仅仅是为了解决某一特定的临时问题。
这表明,外部观察者可能难以获取中间模型的数据,就像围棋高手无法目睹AlphaZero在训练过程中的随机检查点一样。如果真的存在“部署成本比现在高出千倍”的情况,这正是选择不进行部署的原因之一。为何要浪费计算资源为外部客户提供服务?不如继续训练并提炼结果,最终会形成一个部署成本仅为最初100倍、接着是10倍,甚至1倍,最后低于1倍的更高效模型。
因此,当考虑到所有的二阶效应和新的工作流程时,搜索和测试的范式可能会显得极为熟悉。也许现在是时候重新审视AlphaZero和MuZero的训练与部署过程,以及计算机在围棋和国际象棋中的后续表现,以此作为一种前兆。
*与此相关的Jones比此处提到的其他文献(如Snell)更具参考价值,因为Snell设想的是一个静态、固定的模型,关注的是平均表现而非最复杂的情况。尽管解决最难的问题往往具有最高的经济价值,但简单问题的解决并不会带来太多收益,即使能以更低的成本完成。在这种情况下,重复使用小而简单、便宜的模型来处理简单问题,可能会超越一个固定的大模型。然而,这并不涉及长期的动态训练,因为你正在持续训练新的模型。这一观点类似于曾经流行的“过度训练小模型是计算最优的”理论,但这一观点建立在明显错误的假设上,即假设无法提炼、量化或剪枝大模型。实际上,这些都是可行的。
