GPT-4.5表现平平，是否意味着大模型发展已陷入瓶颈？非推理模型将迎来怎样的突破？

共计 1644 个字符，预计需要花费 5 分钟才能阅读完成。

预训练模型的未来与推理模型的崛起

今天我在思考一个问题，随着 GPT-4.5 的推出，预训练模型是否真的走到了尽头呢？

显然并非如此，尽管预训练的边际效益正在逐渐减小，参与者也会减少，但依然有企业坚定不移地投入其中。

一个简单的道理是，即使全力以赴进行后训练，依然需要一个强大的基础模型来支撑。

显然并非如此，尽管预训练的边际效益正在逐渐减小…

推理模型的迅速发展，前提是必须有一个足够强大的基础模型。正如我在之前的回答中提到的，欢迎大神科普：《关于 DeepSeek 的强化学习，为什么强化学习 RL 对 LLM 推理能起效?》，DeepSeek 在进行后训练时，利用强化学习取得了优异的效果，主要原因在于它是在 v3 基础模型上进行 R1-zero 的训练。DeepSeek-v3 拥有强大的语言理解和生成能力。

因此，强大的基础模型能够有效解决强化学习在训练过程中采样效率低的问题，这有点类似于最早的 AlphaGo，它利用了预训练的先验知识。基础模型 v3 提供了高质量的思维链，避免了强化训练中普遍存在的探索维度爆炸，而奖励信号则难以稳定提升的问题。

此外，在讨论中提到的 R1-zero，在强化学习训练过程中，随着训练步数的增加，其在训练集上的平均响应长度逐渐延长，这表明它自然地学会在推理任务中花费更多的思考时间，从而提升了对复杂任务的处理能力。

因此，思维链每一步的质量以及长度问题都至关重要。随着训练步数的增加，思维链的长度也在稳步提升，这使得模型能够生成更为复杂的推理过程。而正是因为基础模型的强大，思维链的长度得到了奖励信号的鼓励，形成了正反馈，从而取得了显著的效果。

甚至，推理模型展示出了显著的自我演化能力，随着测试时间计算的增加，产生了反思、探索解决问题的替代方法，以及常被提到的“Aha Moment”等行为（这里可以参考我在文末提到的另一个回答“智能的本质是什么”），这些都是模型作为强化学习代理与环境互动的结果。

（当然需要补充的是，DeepSeek 在基础模型上训练的 R1-Zero 存在一些问题，比如思维链生成过程中的可读性差和语言混淆。因此，DeepSeek 为了改善 R1-Zero 生成的思维链可读性和语言质量，随后又开发了 DeepSeek R1 模型，这就是我们现在使用的开源推理模型。）

在我提到的那些坚持预训练的公司中，马斯克的 Grok 系列显然也是其中之一。

实际上，前不久马斯克推出的 Grok3 与 DeepSeek 相比，仍然在坚定地走“重拳出击”的路线，无脑地进行规模扩张，在增加计算能力后，性能相较于 Grok2 有了显著提升。发布会上指出，Grok3 的后续训练将使用总共 200K 块 GPU，首期和二期各为 100K 块 GPU……

看看这些显卡的数量，这种简单粗暴堆积计算资源的做法，对于国内的很多公司而言，简直是高不可攀。

总体来看，大家对大型模型训练规模扩张的认识普遍包含了预训练、后训练以及测试时间的扩展。实际上，Grok 模型在训练基础模型时确实用到了预训练扩展，而在提供的推理模型评估基准中，也提到使用了后训练和测试时间扩展，效果显而易见：

因此，OpenAI 接下来的发展方向，极有可能是在基础模型的基础上，继续进行强化学习训练，除了预训练扩展之外，同时进行后训练和测试时间扩展。

然而，遗憾的是，继续通过扩张预训练参数和计算量的方式，其边际收益逐渐下降，性价比也逐步失去吸引力，许多公司因此无缘留下来，转而使用最新的开源预训练大模型进行后训练扩展。

因此，预训练并不会消亡，只会变得愈加奢侈。

而推理模型的后训练则即将迎来一个爆发的时代！

来源：知乎

原文标题：GPT-4.5 的表现未能带来震撼，是否证明大模型的发展进入了瓶颈期？非推理模型是否还能有突破性提升？– toyama nao 的回答

原文链接：https://www.zhihu.com/question/13623202505/answer/113532694402

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

GPT-4.5 基础模型强化学习推理模型预训练模型

发表至： ai编程

2026-01-16

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

百度文心快码Zulu：开启中国“多模态程序员”时代，颠覆编程新格局！

这个“搭子”太棒了！AI助力结对编程新体验

提升开发者效率的9款顶尖AI编程工具！

七款必备的卓越开源AI编程模型，助你编程更高效！

GPT-5 发布无期，人工智能的发展究竟走到了瓶颈吗？

Windsurf免费额度到底有多少？多小心使用超限，别让惊喜变成烦恼！

掌握Cursor：高效管理大型代码库的实用指南与个人经验分享

当AI掌握编程技能，程序员的未来将何去何从？

Java程序员必备：最佳AI工具推荐与付费价值分析

掌握2025年claude编程新趋势，抓住机遇实现你的编程梦想！