GPT-5研发遇挫，2025年能否如期发布？揭秘背后问题！

共计 1653 个字符，预计需要花费 5 分钟才能阅读完成。

根据《华尔街日报》的最新报道，OpenAI 正在研发的下一代大型语言模型 GPT- 5 的进展不如预期， 目前取得的成果与其庞大的投资成本并不匹配。

这一消息与《The Information》之前的报道相呼应，该报道提到 OpenAI 正在寻求新的战略， 因为 GPT- 5 可能无法像以往模型那样带来显著的性能提升 。《华尔街日报》的报道进一步揭示了代号“猎户座”（Orion）的 GPT- 5 在长达 18 个月的研发过程中所遇到的挑战。

据悉，OpenAI 至少进行了两次大规模训练，旨在通过海量数据提升模型性能。首次训练的速度未达预期，这意味着更大规模的训练将需要投入大量时间和资金。虽然据称 GPT- 5 的性能超越了前代产品， 但其提升幅度并不足以合理化维持该模型运行的高昂成本 。

此外，报道还提到，OpenAI 除了依赖公开数据和许可协议外，还招募人员通过编写代码和解决数学题目来生成新的数据。同时，该公司也在利用其另一款模型 o1 生成的合成数据。

截至 IT 之家发布消息时，OpenAI 尚未对此作出回应，之前该公司已表示今年不会推出代号为“猎户座”的模型。

传闻称 OpenAI 新模型 GPT- 5 研发受阻，成本高且效果未达预期

通常情况下，在 GPT- 4 之后应该会先推出 GPT-4.5，接着才是 GPT-5。然而，OpenAI 在 GPT- 4 的后续版本中，先是发布了 o1，随后推出了 o3。o 系列主要聚焦于逻辑推理，这显然是一种折衷的选择，并不是他们不想发布 GPT-5，而是暂时无法实现。可以确定的是，OpenAI 目前正从多个技术方向并行推进：GPT- 5 暂时无法突破，而 o 系列则在努力增强投资者的信心。

有一个生动且直观的比喻：AI 训练所需的数据大多来源于互联网，这就像化石能源一样——开采和使用都相对简单，但并不具备可持续性。尽管眼下看似资源充足，其总量却是有限的，尤其是随着开采和使用效率的提高，数据被“消耗殆尽”的速度也将加快。

正如化石能源终将枯竭，AI 训练所需的数据也会有用尽的一刻。如今的 GPT 几乎已经消耗了那些最易获取的数据。就像教一个孩子解题：他已经把世界上所有的题目都做了，但仅仅会做题而已，要让他真正聪明，就得寻找更多、更具挑战性的“题目”。这也是从 GPT- 4 迈向 GPT- 5 所面临的最大瓶颈：如何“寻找题目”。

换句话说，这种资源匮乏的局面与人类发展所面临的瓶颈极为相似。化石能源总有被用尽的一天，因此人类不断探索新替代品，比如太阳能、风能和地热能等清洁能源。尽管这些替代能源更为环保，但稳定性不如化石能源；还有核能，尽管稳定性高，但技术门槛较高，难以在短期内实现大规模应用。

对于 GPT-5，甚至未来的 GPT- 6 和 GPT-7，所需的数据量不仅会远超当前互联网的整体规模，更需要高质量和多样化的数据。这其中主要包括两个来源：

其他容易获取的数据类型 ：GPT- 4 主要依赖文本训练（如《红楼梦》《新华字典》等），但人类的信息存储不仅限于文字，还涵盖视频、音乐及更多无法用文字完整表达的内容，这些不同形式的数据同样数量庞大。
自我生成的数据 ：OpenAI 目前利用自家模型（如 GPT-4）为下一代模型（GPT-5）生成训练数据。这样能够更好地把控数据质量，毕竟互联网上的数据良莠不齐，一旦使用劣质信息，就相当于给 AI“投毒”，不利于模型的健康发展。

展望未来，数据匮乏或许是行业暂时面临的难题，但同时也可能成为 AI 向多模态、多源多维度演进的动力。OpenAI 及其他机构在多条技术路线上齐头并进，或许正为下一个大型模型的突破准备力量。未来 AI 的发展不仅依赖算力和算法的迭代，也将深深依赖于新型数据获取和处理方式的持续创新。

来源：知乎

原文标题：OpenAI 新模型 GPT-5 被曝训练遇阻，研发具体遇到了哪些问题？2025 年会发布吗？– 知乎

原文链接：https://www.zhihu.com/question/7562897326/answer/61469637515

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完