共计 1653 个字符,预计需要花费 5 分钟才能阅读完成。
根据《华尔街日报》的最新报道,OpenAI 正在研发的下一代大型语言模型 GPT- 5 的进展不如预期, 目前取得的成果与其庞大的投资成本并不匹配。

这一消息与《The Information》之前的报道相呼应,该报道提到 OpenAI 正在寻求新的战略, 因为 GPT- 5 可能无法像以往模型那样带来显著的性能提升 。《华尔街日报》的报道进一步揭示了代号“猎户座”(Orion)的 GPT- 5 在长达 18 个月的研发过程中所遇到的挑战。
据悉,OpenAI 至少进行了两次大规模训练,旨在通过海量数据提升模型性能。首次训练的速度未达预期,这意味着更大规模的训练将需要投入大量时间和资金。虽然据称 GPT- 5 的性能超越了前代产品, 但其提升幅度并不足以合理化维持该模型运行的高昂成本 。
此外,报道还提到,OpenAI 除了依赖公开数据和许可协议外,还招募人员通过编写代码和解决数学题目来生成新的数据。同时,该公司也在利用其另一款模型 o1 生成的合成数据。
截至 IT 之家发布消息时,OpenAI 尚未对此作出回应,之前该公司已表示今年不会推出代号为“猎户座”的模型。
传闻称 OpenAI 新模型 GPT- 5 研发受阻,成本高且效果未达预期
通常情况下,在 GPT- 4 之后应该会先推出 GPT-4.5,接着才是 GPT-5。然而,OpenAI 在 GPT- 4 的后续版本中,先是发布了 o1,随后推出了 o3。o 系列主要聚焦于逻辑推理,这显然是一种折衷的选择,并不是他们不想发布 GPT-5,而是暂时无法实现。可以确定的是,OpenAI 目前正从多个技术方向并行推进:GPT- 5 暂时无法突破,而 o 系列则在努力增强投资者的信心。
有一个生动且直观的比喻:AI 训练所需的数据大多来源于互联网,这就像化石能源一样——开采和使用都相对简单,但并不具备可持续性。尽管眼下看似资源充足,其总量却是有限的,尤其是随着开采和使用效率的提高,数据被“消耗殆尽”的速度也将加快。
正如化石能源终将枯竭,AI 训练所需的数据也会有用尽的一刻。如今的 GPT 几乎已经消耗了那些最易获取的数据。就像教一个孩子解题:他已经把世界上所有的题目都做了,但仅仅会做题而已,要让他真正聪明,就得寻找更多、更具挑战性的“题目”。这也是从 GPT- 4 迈向 GPT- 5 所面临的最大瓶颈:如何“寻找题目”。
换句话说,这种资源匮乏的局面与人类发展所面临的瓶颈极为相似。化石能源总有被用尽的一天,因此人类不断探索新替代品,比如太阳能、风能和地热能等清洁能源。尽管这些替代能源更为环保,但稳定性不如化石能源;还有核能,尽管稳定性高,但技术门槛较高,难以在短期内实现大规模应用。
对于 GPT-5,甚至未来的 GPT- 6 和 GPT-7,所需的数据量不仅会远超当前互联网的整体规模,更需要高质量和多样化的数据。这其中主要包括两个来源:
- 其他容易获取的数据类型 :GPT- 4 主要依赖文本训练(如《红楼梦》《新华字典》等),但人类的信息存储不仅限于文字,还涵盖视频、音乐及更多无法用文字完整表达的内容,这些不同形式的数据同样数量庞大。
- 自我生成的数据 :OpenAI 目前利用自家模型(如 GPT-4)为下一代模型(GPT-5)生成训练数据。这样能够更好地把控数据质量,毕竟互联网上的数据良莠不齐,一旦使用劣质信息,就相当于给 AI“投毒”,不利于模型的健康发展。
展望未来,数据匮乏或许是行业暂时面临的难题,但同时也可能成为 AI 向多模态、多源多维度演进的动力。OpenAI 及其他机构在多条技术路线上齐头并进,或许正为下一个大型模型的突破准备力量。未来 AI 的发展不仅依赖算力和算法的迭代,也将深深依赖于新型数据获取和处理方式的持续创新。

