共计 1644 个字符,预计需要花费 5 分钟才能阅读完成。
今天我在思考一个问题,随着 GPT-4.5 的推出,预训练模型是否真的走到了尽头呢?
显然并非如此,尽管预训练的边际效益正在逐渐减小,参与者也会减少,但依然有企业坚定不移地投入其中。
一个简单的道理是,即使全力以赴进行后训练,依然需要一个强大的基础模型来支撑。
显然并非如此,尽管预训练的边际效益正在逐渐减小…
推理模型的迅速发展,前提是必须有一个足够强大的基础模型。正如我在之前的回答中提到的,欢迎大神科普:《关于 DeepSeek 的强化学习,为什么强化学习 RL 对 LLM 推理能起效?》,DeepSeek 在进行后训练时,利用强化学习取得了优异的效果,主要原因在于它是在 v3 基础模型上进行 R1-zero 的训练。DeepSeek-v3 拥有强大的语言理解和生成能力。
因此,强大的基础模型能够有效解决强化学习在训练过程中采样效率低的问题,这有点类似于最早的 AlphaGo,它利用了预训练的先验知识。基础模型 v3 提供了高质量的思维链,避免了强化训练中普遍存在的探索维度爆炸,而奖励信号则难以稳定提升的问题。
此外,在讨论中提到的 R1-zero,在强化学习训练过程中,随着训练步数的增加,其在训练集上的平均响应长度逐渐延长,这表明它自然地学会在推理任务中花费更多的思考时间,从而提升了对复杂任务的处理能力。
因此,思维链每一步的质量以及长度问题都至关重要。随着训练步数的增加,思维链的长度也在稳步提升,这使得模型能够生成更为复杂的推理过程。而正是因为基础模型的强大,思维链的长度得到了奖励信号的鼓励,形成了正反馈,从而取得了显著的效果。
甚至,推理模型展示出了显著的自我演化能力,随着测试时间计算的增加,产生了反思、探索解决问题的替代方法,以及常被提到的“Aha Moment”等行为(这里可以参考我在文末提到的另一个回答“智能的本质是什么”),这些都是模型作为强化学习代理与环境互动的结果。
(当然需要补充的是,DeepSeek 在基础模型上训练的 R1-Zero 存在一些问题,比如思维链生成过程中的可读性差和语言混淆。因此,DeepSeek 为了改善 R1-Zero 生成的思维链可读性和语言质量,随后又开发了 DeepSeek R1 模型,这就是我们现在使用的开源推理模型。)
在我提到的那些坚持预训练的公司中,马斯克的 Grok 系列显然也是其中之一。
实际上,前不久马斯克推出的 Grok3 与 DeepSeek 相比,仍然在坚定地走“重拳出击”的路线,无脑地进行规模扩张,在增加计算能力后,性能相较于 Grok2 有了显著提升。发布会上指出,Grok3 的后续训练将使用总共 200K 块 GPU,首期和二期各为 100K 块 GPU……
看看这些显卡的数量,这种简单粗暴堆积计算资源的做法,对于国内的很多公司而言,简直是高不可攀。
总体来看,大家对大型模型训练规模扩张的认识普遍包含了预训练、后训练以及测试时间的扩展。实际上,Grok 模型在训练基础模型时确实用到了预训练扩展,而在提供的推理模型评估基准中,也提到使用了后训练和测试时间扩展,效果显而易见:

因此,OpenAI 接下来的发展方向,极有可能是在基础模型的基础上,继续进行强化学习训练,除了预训练扩展之外,同时进行后训练和测试时间扩展。
然而,遗憾的是,继续通过扩张预训练参数和计算量的方式,其边际收益逐渐下降,性价比也逐步失去吸引力,许多公司因此无缘留下来,转而使用最新的开源预训练大模型进行后训练扩展。
因此,预训练并不会消亡,只会变得愈加奢侈。
而推理模型的后训练则即将迎来一个爆发的时代!


推理模型的发展似乎依赖于强大的基础模型,但是否有可能出现新的突破呢?单纯依靠现有的技术和理念,难道就没有其他的创新路径吗?