共计 1388 个字符,预计需要花费 4 分钟才能阅读完成。
根据《华尔街日报》的最新消息,OpenAI 正在研发的下一代大型语言模型 GPT-5 的开发情况未能按照预定的计划推进, 而目前取得的成就与其投入的巨额成本并不相符。

这一消息与之前《The Information》的一篇报道相互呼应,后者指出 OpenAI 正在探索新的策略, 因为 GPT-5 可能无法像以前的模型那样实现显著的性能提升 。《华尔街日报》的报道则进一步披露了代号“猎户座”(Orion)的 GPT-5 在长达 18 个月的研发过程中更多的细节。
据悉,OpenAI 至少完成了两轮大型训练,旨在通过海量数据来提升模型的表现。第一次训练的速度未达预期,表明后续的大规模训练将消耗大量的时间和资金。尽管 GPT-5 的性能据说优于其前代产品, 但其进步幅度尚不足以合理支撑其运行所需的高昂成本 。
此外,报道指出,OpenAI 除了利用公开数据和许可协议外,还雇佣员工通过编写代码和解决数学题目来生成全新的数据。同时,该公司还在应用其另一个模型 o1 所生成的合成数据。
截至 IT 之家的发稿时间,OpenAI 尚未对此消息作出回应,且该公司之前已表明今年不会推出代号“猎户座”的模型。
有报道称 OpenAI 新模型 GPT-5 研发遇阻,成本高昂、效果未达预期
GPT-5 的发布与否已不再是关键。
如今,人工智能已经迈入了一个新的能力提升阶段,从 GPT-4o 到 o1 再到 o3,推理能力得到了显著改善:o3 在 Frontier Maths 领域达到了 25%,而 o1 的得分仅为 2%;在 AIME 2024 数学竞赛测试中取得了 96.7% 的准确率,比 o1 提升了 13.4%;编程能力在全球排前 200,Codeforces 中的 Elo 得分为 2727;在软件工程的 SWE-bench Verified 基准测试中,o3 的表现较 o1 提升了 22.8%,达到了 71.7%。
在思考问题时,GPT 系列依赖于直觉,因为每个输出的 token 都是最终答案的一部分,因此从第一个 token 开始,它就必须保持正确性。举个例子,如果要求 GPT 编写一个程序,它必须从头到尾准确无误地完成,这对其要求极高。如果是人来做同样的任务,又有多少人能够做到呢?因此,GPT-4o 的直觉能力已经超过了人类。继续训练 GPT-5 其实就是在进一步提升直觉能力,这在某种程度上是没有必要的。
而 o1/o3 则是在 GPT-4o 的基础上,增加了慢思考的能力。以编程为例,o1/o3 可以先写一个临时版本,然后反复检查逻辑,遇到错误时进行修改,直到找不到问题为止。这种思维方式更接近于人类。因此,o1/o3 在这一方面取得了显著进展。而且要特别强调的是,o1/o3 在当前阶段是不能使用工具的。如果未来它们学会了使用工具,那么在编写程序时能够实际运行和调试,最终输出的代码质量将会大幅提升。
总的来说,虽然 o1/o3 在某些方面仍存在不足(如工具使用、长期记忆、多模态等),但这些能力的提升并不依赖于一个直觉更强大的基础模型(例如 GPT-5),而是需要其他技术领域的创新突破。