共计 3216 个字符,预计需要花费 9 分钟才能阅读完成。
机器之心报道
机器之心编辑部
大家都关注到了吗?
期待已久的 GPT-5,终于在今晨揭晓。

我们满怀期待,而在直播中,OpenAI 的核心团队成员也显得相当紧张。
在直播期间,奥特曼不停发布推特,介绍 GPT-5 的诸多亮点。
由于信息量庞大,我们将根据奥特曼的推文逐一为大家解析。
首先,这一版本是一个 集成模型,用户在使用时无需频繁切换模型,系统会自动判断何时需要进行深入的推理。

尽管奥特曼提醒大家基准测试并非重中之重,但他们还是分享了许多成绩,涵盖数学、编程、视觉理解和健康等领域。具体成绩如下:
- 数学表现:在 2025 年 AIME 测试中无辅助工具情况下达到了 94.6%
- 实际编程表现:SWE-bench Verified 达成 74.9%,而 Aider Polyglot 则为 88%
- 多模态理解能力:MMMU 达到 84.2%
- 健康领域表现:HealthBench Hard 的成绩为 46.2%
- 借助 GPT-5 pro 的 扩展推理能力,该模型在 GPQA 测试中创下新高,在无辅助工具下获得了 88.4% 的分数。
在费用方面,GPT-5 提供免费、Plus 和 Pro 三种方案。奥特曼提到,免费用户也可体验到「博士级别的智能」(即 GPT- 5 普通版,具备推理功能),而 Plus 用户则享受更少的使用限制,Pro 用户则可以使用 GPT-5 Pro。
对于开发者,GPT-5 的三种 API 版本定价如下:标准版 GPT-5 每百万输入 Token 1.25 美元,输出 Token 每百万 10 美元,GPT-5 mini 和 Nano 版则会更加经济实惠。

尽管直播持续了超过一个小时,OpenAI 仍然主要在强调 GPT-5 是多么的「易用」。
例如,在教育方面,它能够在短短几分钟内生成数百行代码,并创造互动内容以解释复杂的概念,如伯努利效应。

在写作能力方面,GPT-5 显示出比 GPT-4o 更为卓越的表现。

在编程领域,它能在短短几分钟内创建一个法语学习网站,辅助用户练习发音,还具备出题和游戏功能。

语音功能也得到了显著提升,语调变得更为自然,用户可以随意选择对话时间和语速,这无疑是学习外语的理想工具。

我们之前提到的「AI 看病」功能经过了专门的优化,现场还邀请了一位癌症患者来分享她的经历,以及 ChatGPT 在解读病情时给予的支持。奥特曼表示,GPT-5 是迄今为止最出色的健康模型。

然而,现场也出现了一些小问题,例如生成的 跑分图竟然出现了错误,对此,奥特曼也诚恳地承认了失误:

这样的失误并非个例:

更加令人尴尬的是,马斯克也出面来反驳,分享了有关 GPT-5 在 ARC-AGI-2 竞赛中未能击败 Grok 4 的消息:

甚至在呈现减少幻觉的演示时,也遭到了质疑:

不过,有观点认为,这并非是「幻觉」的问题,而在于数据源本身存在缺陷。

总体而言,许多人认为 GPT-5 的表现未能如预期般理想。


那么,GPT-5 在各个方面的表现究竟如何?让我们来深入查看技术博客中的具体信息。
综合智能系统
GPT‑5 是一个整合了三个模型的综合性系统:一个高效应答模型,能够处理大多数常规问题;一个深度推理模型「GPT‑5 Thinking 模式」,负责解决复杂难题;以及一个实时路由器,能够根据对话类型、问题的复杂程度、工具需求以及用户的明确指令(例如输入 “ 深入思考这个问题 ”)自动选择最优的处理模型。
该路由系统通过用户切换模型的行为、回答偏好的数据以及准确性的反馈等实时信号不断进行优化。当使用量达到限制时,各模型的简化版本将接管后续的查询。
GPT-5:开创智能助手的新纪元
OpenAI 近期计划将其多种能力整合为一个终极模型。
GPT-5 的表现令人瞩目,不仅在基准测试中超越了前代产品,响应速度也显著提升。更为关键的是,它在处理现实问题时展现出了更高的效率。
据 OpenAI 的声明,GPT-5 在三个重要领域取得了显著进展:显著减少幻觉现象、提高指令执行的准确性、降低迎合性反馈的比率。此外,GPT-5 在 ChatGPT 应用中最常用的三个功能(文本生成、编程帮助、健康咨询)也有了全面的性能提升。
性能评估
接下来,让我们深入分析 GPT-5 在各项基准测试中的成绩。
根据官方博客,GPT-5 在各项能力上均有所提升,尤其是在数学、编程、视觉理解以及健康领域的表现尤为突出。在数学测试中,GPT-5 在无辅助工具的情况下,AIME 2025 测试达到了 94.6%;在真实场景编程中,GPT-5 分别在 SWE-bench Verified 和 Aider Polyglot 中获得了 74.9% 和 88% 的成绩,而在多模态理解的 MMMU 测试中,得分为 84.2%。在健康领域,HealthBench Hard 测试的成绩为 46.2%。搭载扩展推理能力的 GPT-5 专业版在 GPQA 基准测试中,更是以 88.4% 的成绩(不依赖工具)创造了新纪录。

需要注意的是,不能将使用工具的 AIME 结果与未使用工具的模型性能直接进行比较;这正展示了 GPT-5 如何充分发挥可用工具的优势。

在指令遵循和智能工具调用的基准测试中,GPT-5 显示出显著的进步。这种能力使其能够有效地执行多步请求,进行跨工具的协同作业,并灵活应对上下文的变化。具体而言,这意味着 GPT-5 更能胜任复杂且不断变化的任务:它在遵循用户指令时更加准确,同时能够充分利用现有工具,从头到尾完成更多的工作环节。


以下是一个由 GPT-5 编写的小游戏示例:

多模态能力的基准测试
在多模态基准测试中,该模型的表现尤为突出,涵盖了视觉、视频、空间及科学推理等多个方面。增强的多模态能力使得 ChatGPT 能够更准确地分析图像等非文本输入,无论是解读图表数据、总结演示文稿中的图片,还是回答基于示意图的问题。


健康基准评估

经济价值任务的表现
在 OpenAI 内部进行的一项评估中,GPT-5 的表现同样出色。这一测试专注于评估模型在复杂经济价值型知识工作的能力。当启用推理功能时,GPT-5 在大约一半的案例中达到了或超越了人类专家的水平。在法律、物流、销售、工程等超过 40 个职业领域的综合任务中,它的表现全面优于 o3 模型和 ChatGPT Agent。

在此,我们对评估方式进行说明:GPT-4o 的测试依据为截至 2025 年 8 月的 ChatGPT 最新模型版本。所有的模型均在“高推理强度”设置下进行评估。要特别注意的是,ChatGPT 的推理强度是可调的,而“高”强度则代表了用户在使用模型时可能达到的性能极限。
更迅速、更高效的思维模式
GPT-5 能够在更短的思考时间里创造出更大的价值。评估数据显示,在涉及视觉推理、智能体编程以及研究生级别的科学问题解决等场景中,启用思考功能的 GPT-5 显示出比 OpenAI o3 模型更优异的表现,同时输出的 token 量却减少了 50% 到 80%。



OpenAI 特别指出,GPT-5 的训练是在微软 Azure AI 超级计算机上进行的。
毫无疑问,GPT-5 也迅速在微软的平台上投入使用。

为了应对最具挑战性的复杂任务,OpenAI 发布了 GPT-5 pro,这款模型是为了替代 OpenAI o3-pro。GPT-5 pro 是 GPT-5 的一种变体,具备长时间思考的能力,并能够利用可扩展和高效的并行计算,以提供最高水平和最全面的答案。
在多项极具挑战性的智能基准测试中,GPT-5 pro 表现出色,取得了 GPT-5 系列中的最佳成绩,尤其是在解决包含极其困难科学问题的 GPQA 测试中,表现尤为突出。
此外,我们将 GPT-5 的模型系统卡放置于最后,欢迎感兴趣的读者自主探索。

- 链接:https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
不得不提的是,这张图表清晰地描绘了今天发布的 GPT- 5 系列模型与之前几代 OpenAI 模型之间的关系。

最后,我想询问一下:你对 GPT- 5 的表现感到满意吗?或者你更期待 DeepSeek-R2 的到来呢?
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!