共计 11641 个字符,预计需要花费 30 分钟才能阅读完成。
最近,有迹象显示OpenAI似乎经历了一些重大变化。

AI研究者Gwern Branwen撰写了一篇有关OpenAI的o3、o4、o5版本的文章。
他指出,OpenAI已达到“递归自我改进”的关键阶段,o4或o5有能力自动化AI的研发工作,完成剩余的任务!
文章主要内容包括:
- OpenAI可能会选择将其“o1-pro”模型保密,利用其计算能力训练更先进的o3模型,这与Anthropic的策略相似;
- OpenAI可能认为他们在AI发展上已取得重大突破,正朝着超人工智能(ASI)迈进;
- 目标是创建一种效率极高的超智能AI,类似于AlphaGo/Zero所达到的效果;
- 推理过程中的搜索最初可能会提升性能,但最终会达到瓶颈。
甚至有传言称,OpenAI和Anthropic已经训练出GPT-5级别的模型,但选择将其“隐藏”。
原因在于这些模型虽然能力强大,但运营成本过高,利用GPT-5来提炼出GPT-4o、o1、o3等模型的性价比更高。
OpenAI的安全研究员Stephen McAleer在过去两周的推特上发表的内容,简直像是一篇短篇科幻小说:
我怀念过去进行AI研究的日子,那时我们还不知如何创造超级智能。
在前沿实验室中,许多研究人员对AI短期影响十分认真,而实验室外几乎没有人充分讨论其安全性。
如今,控制超级智能已成为一个迫在眉睫的研究课题。
我们该如何掌握这诡计多端的超级智能?即使有完美的监控工具,难道它不会说服我们将其释放吗?
总之,越来越多的OpenAI员工开始暗示,他们在内部正在开发ASI。
这是真的吗?还是CEO奥特曼的“谜语人”风格被员工们模仿了呢?

许多人认为,这只是OpenAI惯常的宣传手法。
然而,让人不安的是,一些一两年前离开的前员工曾表达过担忧。
难道我们真的已接近ASI的边缘?
OpenAI被曝训出GPT-5,但雪藏
近期关于GPT-5的讨论引起了广泛关注,其中一篇由Alberto Romero撰写的文章《关于GPT-5的传闻会改变一切》,以及Lesswrong上关于推理扩展与AI安全影响的讨论。在这篇讨论的评论区,Gwern Branwen也发表了长篇回复。
这两篇文章的核心观点几乎相同,均提到OpenAI和Anthropic内部已实现了更强大的模型,但选择不公开,原因在于考虑到公众使用的成本后,采用强大模型生成合成数据,通过蒸馏提升小型模型的表现,似乎是一种更优的做法。这也意味着AI模型将不断通过递归自我改进而提升性能,逐渐形成更强大的智能,传统的发布与更新模式将不再适用。
我认为这样的说法还是颇具可能性的。今天,Sam Altman宣布即将推出o3-mini,并在评论中回应了大家对GPT-5及o系列模型的疑问:

他表示,尽管GPT-5的发布日期和性能尚不明朗,但用户应该会对此感到满意。到了2025年,他们会尝试将GPT系列与o系列进行整合。
两篇文章的摘要:
关于GPT-5的传闻会改变一切
- GPT-5存在但未公开:假设GPT-5已完成训练,但OpenAI未对外发布,原因是内部使用的回报率明显高于对数百万用户的发布。
- 蒸馏过程:OpenAI及其他实验室(如Anthropic)采用强大模型产生合成数据,通过蒸馏提高小型模型的性能。
- 成本与性能考量:GPT-5及其他大型模型的成本过于高昂,因此OpenAI可能将其用于内部而非公开发布,类似于Anthropic的Claude 3.5。
- AI的发展趋势:AI模型趋向于小型化与低成本,同时保持高效能,以降低推理成本。OpenAI可能在等待更理想的发布时机。
- AGI与商业目标:OpenAI可能推迟GPT-5的发布,以避免触发AGI的法律框架,同时保持与微软的合作灵活性。
- 未来的AI发展模式:OpenAI的核心目标可能转向开发支持下一代模型的教师模型,而不再依赖传统的模型发布。
Gwern Branwen的观点
- 自我对弈与扩展范式:像o1这样的模型主要目的并非直接部署,而是为下一个模型生成训练数据进行优化。
- 模型小型化与低成本:经过精炼的训练数据能生成更小、更便宜的模型,这些模型表现出与更大模型相当的能力。
- AI递归自我改进:AI模型通过递归自我改进不断提升性能,形成更强大的智能,逐渐摆脱传统发布与更新模式的束缚。
- AlphaGo式发展路径:未来的AI可能沿着AlphaGo、AlphaZero的路径发展成既强大又经济的系统,能够自动化研发,达到超智能的境界。
- OpenAI突破感:OpenAI对AI发展的乐观情绪表明,已突破某些关键门槛,向AGI和超智能迈进,未来的进展将呈指数级增长。
接下来附上两篇文章的全文翻译:
关于GPT-5的传闻会改变一切
如果我告诉你GPT-5确实存在,而且不仅仅是存在,而是已经在悄然塑造世界,从你看不见的地方开始呢?假设:OpenAI构建了GPT-5,但将其保留在内部,因为相比于将其发布给数百万ChatGPT用户,内部使用所带来的投资回报要高得多。而且,他们得到的回报并非金钱,而是其他方面的收益。正如你所见,这个想法本身并不复杂;挑战在于将所有指向它的线索串联起来。本文将深入探讨为何我认为这一切都能解释得通。
我想明确一点:这纯属猜测。尽管有一些公开的证据,但并没有泄露或内部传闻证明我的观点是正确的。实际上,我正通过这篇文章构建这个理论,而不仅仅是分享它。我没有内部信息——即便有,我也会签署保密协议。这个假设之所以引人信服,是因为它合乎逻辑。老实说,除了这个,我还能提供什么更多的线索促使这个谣言传播得更广呢?
这一切的真相由你来决定是否原谅我。即使我错了——我们迟早会知道——我认为这也是一个有趣的侦探练习。我邀请你在评论中进行猜测,但请保持建设性和深思熟虑。同时,请先完整阅读这篇文章。除此之外,任何辩论都是热烈欢迎的。
I. Opus 3.5的神秘消失
在讨论GPT-5之前,我们得去看看它的远亲,另一个同样失踪的角色:Anthropic的Claude Opus 3.5。
众所周知,三大AI实验室——OpenAI、Google DeepMind和Anthropic——都提供了多种模型,旨在满足不同价格/延迟与性能的需求。OpenAI提供了如GPT-4o、GPT-4o mini、o1和o1-mini等选择;Google DeepMind则有Gemini Ultra、Pro和Flash;而Anthropic则推出了Claude Opus、Sonnet和Haiku。目标十分明确:尽可能满足不同客户的需求。一些客户优先考虑顶级性能,无论成本如何,而其他客户则寻求既经济又足够好的解决方案。目前为止,一切进展顺利。
但在2024年10月,发生了一件奇怪的事情。大家本期待Anthropic发布Claude Opus 3.5,以回应2024年5月推出的GPT-4o。然而,2024年10月22日,他们发布了更新版的Claude Sonnet 3.5(人们开始称之为Sonnet 3.6)。Opus 3.5却消失得无影无踪,似乎Anthropic失去了与GPT-4o直接竞争的模型。可疑吧?以下是人们讨论的内容及Opus 3.5实际发生事情的时间线:
- 2024年10月28日,我在每周回顾中提到:“[有]关于Sonnet 3.6的传言称,它是一个失败的训练过程中的检查点,原计划是为了备受期待的Opus 3.5。”同样在10月28日,一个帖子出现在r/ClaudeAI的子版块:“Claude 3.5 Opus已被取消”,并附上指向Anthropic模型页面的链接,直到今天,该页面上没有提到Opus 3.5。有些人猜测,取消这一版本是为了在即将到来的融资轮次前保持投资者的信任。
- 2024年11月11日,Anthropic的CEO Dario Amodei在Lex Fridman的播客中澄清了这些传闻,否认他们放弃了Opus 3.5:“虽然没有给出确切的日期,但据我们所知,计划依然是发布Claude 3.5 Opus。”这种谨慎且模糊的表态,虽然有效,却也让人更加好奇。
Anthropic与OpenAI的模型背后:蒸馏的奥秘与挑战
2024年11月13日,彭博社报道了有关Anthropic的消息,证实了有关其模型的传闻:“经过训练,Anthropic发现3.5 Opus在评估中表现优于之前的版本,但并未达到预期的效果,考虑到模型的规模与构建、运行的成本。”Dario的谨慎态度似乎源于虽然Opus 3.5的训练并未失败,但结果未能令人满意。值得注意的是,该报道强调的是性能与成本的关系,而非单纯的性能优劣。
而在2024年12月11日,半导体专家Dylan Patel及其Semianalysis团队对这一情况进行了深入解析,形成了一个连贯的叙述:“Anthropic完成了Claude 3.5 Opus的训练,模型表现良好,并进行了适当的扩展……然而,Anthropic并未发布该模型,而是将其用于生成合成数据并进行奖励建模,从而显著提升了Claude 3.5 Sonnet的性能,同时结合了用户的数据。”
综上所述,Anthropic确实完成了Claude Opus 3.5的训练,但放弃这个名称的原因在于其性能未能合理化推理成本。Dario认为不同的训练方式或许会带来更好的结果,因此他未明确给出发布时间。彭博社的确认显示其性能优于现有模型,但在推理成本方面效果并不显著。Dylan和他的团队揭示了Sonnet 3.6与Opus 3.5之间的关系:后者在内部用于生成合成数据,以提升前者的表现。
如同下图所示:

II. 更小更便宜的更好选择?
使用强大的、昂贵的模型来生成数据,以增强稍微不那么强大且更经济的模型性能的过程被称为蒸馏。这是一种常见的做法,允许人工智能实验室通过蒸馏改善它们的小型模型,超越仅通过额外预训练所能实现的效果。
蒸馏的方法多种多样,但在这里我们不深入探讨。重要的是要理解,强大的模型扮演着“教师”的角色,帮助“学生”模型从【小型、便宜、快速】转变为【小型、便宜、快速】而又强大。蒸馏技术将强大的模型转变为宝贵的资源。Dylan解释了为什么Anthropic选择通过Opus 3.5与Sonnet 3.6进行蒸馏是合理的:
新版Sonnet与旧版Sonnet的推理成本并没有显著变化,但模型的表现却发生了变化。发布3.5 Opus的理由何在?从成本的角度看,它的经济性并不划算,与其发布3.5 Opus后继续训练的3.5 Sonnet相比。
我们再次回到了成本的问题:蒸馏不仅可以保持低推理成本,同时还能提升性能。这恰好为彭博社报道中的主要问题提供了即时的解决方案。Anthropic选择不发布Opus 3.5,除了由于结果不如预期外,更因为它在内部的价值更高。(Dylan指出,这也是为什么开源社区能够如此迅速追赶上GPT-4——他们直接从OpenAI的宝贵资源中提取优势。)
最让人惊讶的发现是什么呢?Sonnet 3.6不仅表现优秀,更是在SOTA(state-of-the-art)上,甚至超过了GPT-4o。通过对Opus 3.5的蒸馏,Anthropic的中阶模型超越了OpenAI的旗舰模型,这与其他因素也可能相关,毕竟在人工智能领域,五个月的时间是极其漫长的。突然间,高成本不再是高性能的代名词。
那么,“更大就是更好”的观念又何在?OpenAI的首席执行官Sam Altman曾警告说,这一观点已经不再适用。我也曾对此进行过讨论。曾几何时,顶尖实验室对其宝贵知识保持神秘,停止了数据共享。如今,参数数量已不再是可靠的衡量标准,我们的关注已明智地转向了基准性能。OpenAI最后披露的模型规模是2020年的GPT-3,拥有1750亿个参数。到了2023年6月,传言称GPT-4是一个专家混合模型,总计约有1.8万亿个参数。Semianalysis随后在详细评估中证实了这一点,得出的结论是GPT-4的参数数量为1.76万亿。这一数据是在2023年7月公布的。
直到2024年12月,Ege Erdil(EpochAI的研究员,一家专注于人工智能未来影响的机构)估算出,领先的AI模型——包括GPT-4o和Sonnet 3.6——明显小于GPT-4(尽管在基准测试中它们的表现都超过了GPT-4):
……目前的前沿模型,如原版GPT-4o和Claude 3.5 Sonnet,可能比GPT-4小一个数量级,4o约为2000亿个参数,3.5 Sonnet约为4000亿个参数……不过这个估算可能存在较大偏差,误差可能达到2倍,因为我是通过粗略的方法得出的。
他详细解释了得出这个数字的过程,尽管各大实验室尚未公布任何架构细节,但这对我们来说并不重要。重要的是,雾霾正在消散:Anthropic与OpenAI似乎都在走相似的道路。他们最新的模型不仅具备更好的性能,而且比上一代更加紧凑和经济。我们了解到,Anthropic通过将Opus 3.5蒸馏成Sonnet 3.6实现了这一目标。那么,OpenAI又采取了什么措施呢?

III. 推动人工智能实验室发展的共同动力
有人可能会认为,Anthropic的蒸馏策略是由特定情况促成的——即Opus 3.5的训练结果不尽如人意。然而,实际上,Anthropic的处境并非孤立。Google DeepMind与OpenAI在其最新训练中也报告了类似的结果。(需要记住的是,“不理想”并不等同于“更差的模型”。)这些原因对我们而言并不重要:包括由于缺乏数据而导致的收益递减、Transformer架构的固有限制、预训练规模法则的瓶颈等等。无论如何,Anthropic的独特情况实际上是普遍存在的。
但请记住彭博社的报道:性能指标的好坏是相对成本而言的。这是另一个共同因素吗?答案是肯定的。Ege解释了原因:在ChatGPT/GPT-4热潮后的需求激增,生成式AI的迅猛发展令各实验室难以跟上,导致了不断增加的亏损。这种局面促使它们着手降低推理成本(训练过程是一锤子买卖,但推理成本随着用户数量和使用量的增加而呈比例上涨)。如果每周有3亿人使用你的AI产品,突如其来的运营支出可能会让你难以承担。
无论是什么原因促使Anthropic将Sonnet 3.6从Opus 3.5中蒸馏出来,这一举措对OpenAI也产生了多重影响。蒸馏的有效性在于它将这两个普遍存在的挑战转化为优势:通过提供更小的模型来解决推理成本问题,同时避免因性能不佳而惹怒公众,因为较大的模型并未被发布。
Ege指出,OpenAI可能选择了一种替代方案:过度训练。这个想法是利用比理论最佳更多的数据对小模型进行训练:“当推理成本在模型支出中占据重要或主导地位时,最好是……用更多的Token来训练较小的模型。”然而,过度训练现在已不再可行。人工智能实验室已经耗尽了高质量的预训练数据源。Elon Musk和Ilya Sutskever最近几周都对此表示过认可。
我们再次回到了蒸馏。Ege总结道:“我认为,GPT-4o和Claude 3.5 Sonnet很可能是从更大的模型中蒸馏出来的。”
至此,所有拼图的碎片都指向一个结论:OpenAI正在以与Anthropic对Opus 3.5所采取的相似方式(进行训练并隐藏)进行操作,并出于相同的原因(糟糕的结果/成本控制)。这一发现引人注目。但等等,Opus 3.5仍然处于隐藏状态。OpenAI的类似模型究竟在哪里?它是否藏在公司的地下室中?你敢猜个名字吗……?

IV. 先驱者的使命:为他人铺路
当我开始这篇分析时,是通过对Anthropic的Opus 3.5故事进行研究,因为这是我们获得更多信息的案例。随后,我通过蒸馏的概念将其与OpenAI联系起来,解释了推动Anthropic背后的驱动力也是推动OpenAI的原因。然而,我们的理论中出现了一个新的障碍:由于OpenAI是先行者,他们可能面临着Anthropic等竞争对手尚未遭遇的挑战。
其中一个障碍是训练GPT-5所需的硬件要求。Sonnet 3.6在性能上可与GPT-4o相媲美,但其发布时有五个月的延迟。我们应假设GPT-5将处于一个全新的层次,变得更强大、更庞大。而且不仅推理成本更高,训练成本也会随之增加,可能达到数亿美元的训练费用。使用现有硬件,是否有可能实现这一目标?
Ege再次为我们指明了方向:是的。为3亿用户提供如此庞大的模型服务是不可承受的。但是训练呢?这是小事一桩:
原则上,即便是我们目前的硬件,也足以支持训练一个比GPT-4更大的模型:例如,GPT-4的50倍规模版本,约有100万亿个参数,可能以每百万输出Token 3000美元、每秒输出10-20个Token的速度进行服务。然而,为了使这种规模变得可行,这些大模型必须为其客户创造出大量的经济价值。
然而,对于微软、谷歌或亚马逊(OpenAI、DeepMind和Anthropic的资助方)来说,支付如此巨额的推理费用并不划算。那么它们又是如何解决这个问题的呢?很简单:如果他们打算向公众提供几万亿参数的模型,他们就需要“释放大量的经济价值”。但实际上,他们并不打算这样做。
OpenAI的未来:背后的真实考量与市场动态
他们进行了模型训练,并逐渐意识到,新的系统表现出色,超越了现有产品。然而,他们不得不承认,这个新模型的进展仍不足以证明高昂的运营成本是合理的。这种说法听上去是否有些耳熟?的确,这正是《华尔街日报》一个月前对 GPT-5 的描述,与彭博社对 Opus 3.5 的评价如出一辙。
在报告中,他们披露了令人失望的结果(虽然准确性尚可,他们总能在叙述中做出调整)。最终,他们决定将其作为大型教师模型,用于生成更小的学生模型,并随后发布了这些模型。我们见证了 Sonnet 3.6 和 GPT-4o 的问世,并欣喜于其价格合理且性能良好。尽管我们的期待在上升,但 Opus 3.5 和 GPT-5 的发布进度却并没有改变。与此同时,他们的财务状况依旧显得光鲜亮丽,宛如金矿般闪烁。
V. Altman 先生,还有更多值得关注的理由!
在研究到这一阶段时,我依然心存疑虑。虽然所有迹象表明,这对 OpenAI 是合理的,但合理性与实际之间存在着明显的鸿沟。我不会为你填补这个空白——毕竟,这只能是推测。不过,我可以进一步强化这个观点。
是否还有其他证据表明 OpenAI 是以这种方式运作的?除了性能欠佳和持续亏损,他们是否还有其他理由推迟 GPT-5 的发布?我们能从 OpenAI 高层关于 GPT-5 的公开声明中获得什么启示?当他们反复推迟模型的发布时,是否会面临声誉受损的风险?毕竟,OpenAI 是人工智能革命的先锋,而 Anthropic 则在其光芒之下运作。Anthropic 能够如此操作,但 OpenAI 呢?也许并非如此简单。
谈到资金,我们需要深入了解 OpenAI 与微软合作的一些关键细节。首先,大家都清楚的事实是有关 AGI 的条款。在 OpenAI 发布的结构性博客中,他们列出了五项治理条款,阐述了其运作机制、与非盈利组织的关系、董事会的结构以及与微软的合作关系。第五条款定义了 AGI,称其为“在大多数经济价值领域超越人类的高度自治系统”,并规定一旦 OpenAI 董事会声称达成 AGI,“这样的系统将不再适用知识产权许可及与微软的其他商业条款,微软仅对 AGI 之前的技术有效。”
可以想象,两家公司都不希望合作关系破裂。尽管 OpenAI 制定了这个条款,他们会竭尽所能避免其实施。其中一种策略就是延迟发布可能被视为 AGI 的系统。“但 GPT-5 肯定不是 AGI,”你可能会反驳。我则想指出,有一个鲜为人知的事实:OpenAI 和微软之间存在一个关于 AGI 的秘密定义,虽然这个定义在科学上并不重要,但在法律上却框定了他们的合作关系:AGI 是指“能够创造至少 1000 亿美元利润的 AI 系统。”
如果 OpenAI 假设性地推迟发布 GPT-5,理由是尚未准备好,他们将实现除了成本控制和避免公众反响的另一个目标:他们可以避免对是否达到 AGI 分类标准的声明。尽管 1000 亿美元的利润看似庞大,但并没有什么能阻拦那些雄心勃勃的客户在此基础上进行构建。另一方面,必须明确的是,如果 OpenAI 预计 GPT-5 每年能够带来 1000 亿美元的收入,他们是不会在意触发 AGI 条款并与微软分道扬镳的。
公众对 OpenAI 不发布 GPT-5 的反应,多数基于一个假设,即他们不发布是因为模型不够出色。即便这一点成立,仍然没有人停下来思考 OpenAI 是否存在一个内部用例,比外部市场需求更为重要。开发一个优秀的模型与开发一个能够以低成本服务于三亿人的优秀模型之间差异巨大。如果无法做到,你便不会尝试。但如果不需要去做,他们也不会去做。曾经,他们向我们提供最佳模型,因为他们需要我们的数据,而如今情况已然不同。他们不再追求我们的资金,那是微软的责任。当前,他们追求的是 AGI,进而是 ASI(超人工智能)。他们渴望的是遗产。

VI. 这一切为何会改变游戏规则
我们即将结束讨论。我相信我已提供了足够的论据,构成了一个坚实的论点:OpenAI 很可能已经在内部完成了 GPT-5,正如 Anthropic 完成了 Opus 3.5 一样。甚至可以合理推测,OpenAI 可能根本不会发布 GPT-5。现在,公众在衡量性能时,不仅仅是在对比 GPT-4o 或 Claude Sonnet 3.6,而是与 o1/o3 进行比较。随着 OpenAI 探索测试时间的延展,GPT-5 需要达到的标准也在不断提升。他们怎么可能发布一个真正超越 o1、o3 和即将到来的 o 系列模型的 GPT-5 呢?而且,他们现在已经不再需要我们的资金或数据了。
训练新的基础模型——如 GPT-5、GPT-6 等——对 OpenAI 来说是有意义的,但不一定意味着将其作为产品发布。这样的时代或许已经结束。如今,他们唯一重视的目标是持续为下一代模型生成更优质的数据。从今往后,基础模型可能会在后台运作,支持其他模型完成独立无法达成的任务——犹如一位古老的隐士在隐秘的山洞中传递智慧,唯一不同的是,这个山洞是一个庞大的数据中心。无论我们是否见到他,我们都将经历他智慧带来的影响。

即使 GPT-5 最终发布,这一事实可能会显得几乎无关紧要。如果 OpenAI 和 Anthropic 真正启动了递归自我改进的机制(尽管人类依然在其中发挥作用),那么无论他们向我们发布什么,都将不再重要。他们将不断向前,仿佛宇宙在急剧膨胀,以至于遥远星系的光芒无法再抵达我们。
这或许是 OpenAI 在短短三个月内,从 o1 跃升至 o3 的原因,也可能是他们即将跃迁至 o4 和 o5 的方式。这也许解释了他们最近在社交媒体上表现出的极大兴奋。因为他们已经实施了一种全新的改进运作模式。
你真的认为接近 AGI 意味着能够随时掌控更强大的 AI 吗?他们会将每一次进步都公之于众供我们使用吗?你当然不相信如此。正如他们所言,他们的模型将使他们走得太远,以至于其他人无法追赶。每一代新模型都是逃逸速度的引擎。从平流层俯瞰,他们已经在向我们挥手告别。
现在还不清楚他们是否会回归。
第二篇,Gwern Branwen 的观点:
我认为这里面缺少了自我对弈扩展范式的一个重要部分:像 o1 这样的模型的主要目的并非部署,而是为下一个模型生成训练数据。o1 解决的每个问题现在都成为了 o3 的训练数据点(例如,任何 o1 会话最终找到了正确答案,都可以经过精炼,去除死胡同,生成干净的转录文本,以训练更精细的直觉)。这意味着这里的扩展范式最终可能会与当前的训练时间范式非常相似:大量大型数据中心辛勤工作,训练出一个最终的前沿模型,代表着最高的智能,这个模型通常会在低搜索的方式下使用,并转化为更小、更便宜的模型,用于那些低/无搜索仍然过度的应用场景。在这些大型数据中心,工作负载可能几乎完全与搜索相关(因为相比推出模型,实际的微调便宜且容易),但这对其他人来说并不重要;如同以前一样,你看到的基本上是高端 GPU 和兆瓦的电力投入,等三到六个月,一款更智能的 AI 便会问世。
我实际上有点惊讶 OA 至少部署了 o1-pro,而不是将其保密,并将计算资源投入更多的 o3 训练等启动工作。(显然,这正是 Anthropic 和 Claude-3.6-opus 所经历的事情——它并没有“失败”,他们只是选择保持私密,并将其提炼成一个小而便宜但异常聪明的 Claude-3.6-sonnet。)
如果你想知道为什么 OAers 在 Twitter 上突然显得异常、几乎是兴奋地乐观,看从最初的 4o 模型到 o3(以及现在它所在的位置!)的改进,可能就是原因。这就像是在看 AlphaGo 的 Elo 曲线:它只会持续上升… 一直上升… 一直上升…
或许他们已经感觉到“突破”的时刻,终于跨越了最后的临界门槛,从仅仅是每个人几年后都会复制的前沿 AI 工作,进入了真正起飞的阶段——破解了智能,达到了递归自我改进的阶段,今后在 o4 或 o5 之后,能够自动化 AI 研发,完成剩下的部分:正如 Altman 在 2024 年 11 月所言,“我能看到一条道路,按照我们所做的工作,我们的进展会不断复合,过去三年取得的进展将持续下去,不论是三年、六年,还是九年,或其他任何时间”,而这一切在一周前变成了,“我们现在有信心知道如何构建我们传统理解中的 AGI… 我们开始将目标放得更远,超智能,真正意义上的超智能。我们喜欢我们当前的产品,但我们是为辉煌的未来而来。凭借超智能,我们可以做任何事。”(让 DeepSeek 去追逐他们的尾灯吧;一旦超智能研究能够自给自足,他们就无法获得所需的大型计算机来竞争,简直是字面上的。)
然后你就可以“两全其美”:最终的 AlphaGo/Zero 模型不仅是超人类的,而且非常便宜也能运行。(只需搜索几个棋步,就能达到超人类的水平;即使是单步前传也能达到接近职业人类水平!)
如果你看看相关的扩展曲线——我再次建议阅读 Jones 2021*——原因就变得显而易见了。推理时的搜索就像一种兴奋剂,能立刻提升你的分数,但很快就会趋于平稳。很快,你就需要使用更智能的模型来改善搜索本身,而不是仅仅做更多的搜索。(如果仅仅通过搜索能成功,那么国际象棋早在1960年代就应该被解决了。比起每秒钟一个国际象棋大师能搜索的几步棋,搜索更多的位置并不难。如果你想得到“Hello World”文本,几只猴子在打字机上或许能做得很廉价;但如果你想得到《哈姆雷特》全文,最好还是开始克隆莎士比亚。)幸运的是,你手头有训练数据和模型,可以用来创造一个更智能的模型…
Sam Altman(2024年12月20日):
似乎在今天的喧嚣中,部分内容被忽视了:
在许多编码任务中,o3-mini 将以巨大的成本降低超越 o1!
标题:未来AI成本与性能的博弈:深度探索模型优化之路
我相信这一发展趋势将会持续下去。然而,令人困惑的是,若想通过显著增加投资来获得边际性能的提升,这种做法似乎并不合理。
尤其需要强调的是,资金的投入可以显著改善某些模型的表现……但这里的“你”可能是“人工智能实验室”,实际上你是在为提升模型本身而投资,而不仅仅是为了应对某个普通问题的短期解决方案。
这就意味着,外部观察者可能永远无法获取到中间模型的细节——就像围棋高手无法目睹 AlphaZero 在训练过程中的随机检查点一样。如果真的存在“部署成本比现在高出1000倍”的情况,那么不进行部署可能是一个合理的选择。为何要浪费计算资源去服务外部客户呢?不如继续优化训练,提炼结果,最终将部署成本降低到原来的100倍、10倍,甚至1倍。
因此,在搜索和测试时,我们可能会发现一种意外的熟悉感,一旦考量到所有的二阶效应和新工作流程。或许现在正是回顾 AlphaZero 和 MuZero 的训练及部署过程,以及计算机围棋和国际象棋后续发展的最佳时机,作为一种预示。
*Jones 提及的若干参考文献(如 Snell)更具相关性,因为 Snell 假设模型是静态和固定的,关注的是平均表现而非极端情况(尽管处理最复杂的问题反而是最具经济效益的——解决那些简单问题并不会带来显著的价值,即使以更低的成本解决)。在这种情形下,毫无疑问,反复利用小巧、廉价的模型来解决简单问题,可能会超越一个庞大的固定模型。但这并不适用于长期动态,因为你正处于训练新的模型之中。(这种情况类似于人们曾经热衷于“过度训练小模型是计算上最优解”的观点——这一看法只在一个明显错误的假设下成立,即假设无法提炼、量化或剪枝大型模型。但实际上,这一切都是可以实现的。)
