奥特曼推出免费GPT-5，博士级智能引发全网热议与吐槽！

机器之心报道

机器之心编辑部

大家都关注到了吗？

期待已久的 GPT-5，终于在今晨揭晓。

我们满怀期待，而在直播中，OpenAI 的核心团队成员也显得相当紧张。

在直播期间，奥特曼不停发布推特，介绍 GPT-5 的诸多亮点。

由于信息量庞大，我们将根据奥特曼的推文逐一为大家解析。

首先，这一版本是一个 集成模型，用户在使用时无需频繁切换模型，系统会自动判断何时需要进行深入的推理。

尽管奥特曼提醒大家基准测试并非重中之重，但他们还是分享了许多成绩，涵盖数学、编程、视觉理解和健康等领域。具体成绩如下：

数学表现：在 2025 年 AIME 测试中无辅助工具情况下达到了 94.6%
实际编程表现：SWE-bench Verified 达成 74.9%，而 Aider Polyglot 则为 88%
多模态理解能力：MMMU 达到 84.2%
健康领域表现：HealthBench Hard 的成绩为 46.2%
借助 GPT-5 pro 的 扩展推理能力，该模型在 GPQA 测试中创下新高，在无辅助工具下获得了 88.4% 的分数。

在费用方面，GPT-5 提供免费、Plus 和 Pro 三种方案。奥特曼提到，免费用户也可体验到「博士级别的智能」（即 GPT- 5 普通版，具备推理功能），而 Plus 用户则享受更少的使用限制，Pro 用户则可以使用 GPT-5 Pro。

对于开发者，GPT-5 的三种 API 版本定价如下：标准版 GPT-5 每百万输入 Token 1.25 美元，输出 Token 每百万 10 美元，GPT-5 mini 和 Nano 版则会更加经济实惠。

尽管直播持续了超过一个小时，OpenAI 仍然主要在强调 GPT-5 是多么的「易用」。

例如，在教育方面，它能够在短短几分钟内生成数百行代码，并创造互动内容以解释复杂的概念，如伯努利效应。

在写作能力方面，GPT-5 显示出比 GPT-4o 更为卓越的表现。

在编程领域，它能在短短几分钟内创建一个法语学习网站，辅助用户练习发音，还具备出题和游戏功能。

语音功能也得到了显著提升，语调变得更为自然，用户可以随意选择对话时间和语速，这无疑是学习外语的理想工具。

我们之前提到的「AI 看病」功能经过了专门的优化，现场还邀请了一位癌症患者来分享她的经历，以及 ChatGPT 在解读病情时给予的支持。奥特曼表示，GPT-5 是迄今为止最出色的健康模型。

然而，现场也出现了一些小问题，例如生成的 跑分图竟然出现了错误，对此，奥特曼也诚恳地承认了失误：

这样的失误并非个例：

更加令人尴尬的是，马斯克也出面来反驳，分享了有关 GPT-5 在 ARC-AGI-2 竞赛中未能击败 Grok 4 的消息：

甚至在呈现减少幻觉的演示时，也遭到了质疑：

不过，有观点认为，这并非是「幻觉」的问题，而在于数据源本身存在缺陷。

总体而言，许多人认为 GPT-5 的表现未能如预期般理想。

那么，GPT-5 在各个方面的表现究竟如何？让我们来深入查看技术博客中的具体信息。

综合智能系统

GPT‑5 是一个整合了三个模型的综合性系统：一个高效应答模型，能够处理大多数常规问题；一个深度推理模型「GPT‑5 Thinking 模式」，负责解决复杂难题；以及一个实时路由器，能够根据对话类型、问题的复杂程度、工具需求以及用户的明确指令（例如输入 “ 深入思考这个问题 ”）自动选择最优的处理模型。

该路由系统通过用户切换模型的行为、回答偏好的数据以及准确性的反馈等实时信号不断进行优化。当使用量达到限制时，各模型的简化版本将接管后续的查询。

OpenAI 近期计划将其多种能力整合为一个终极模型。

GPT-5 的表现令人瞩目，不仅在基准测试中超越了前代产品，响应速度也显著提升。更为关键的是，它在处理现实问题时展现出了更高的效率。

据 OpenAI 的声明，GPT-5 在三个重要领域取得了显著进展：显著减少幻觉现象、提高指令执行的准确性、降低迎合性反馈的比率。此外，GPT-5 在 ChatGPT 应用中最常用的三个功能（文本生成、编程帮助、健康咨询）也有了全面的性能提升。

性能评估

接下来，让我们深入分析 GPT-5 在各项基准测试中的成绩。

根据官方博客，GPT-5 在各项能力上均有所提升，尤其是在数学、编程、视觉理解以及健康领域的表现尤为突出。在数学测试中，GPT-5 在无辅助工具的情况下，AIME 2025 测试达到了 94.6%；在真实场景编程中，GPT-5 分别在 SWE-bench Verified 和 Aider Polyglot 中获得了 74.9% 和 88% 的成绩，而在多模态理解的 MMMU 测试中，得分为 84.2%。在健康领域，HealthBench Hard 测试的成绩为 46.2%。搭载扩展推理能力的 GPT-5 专业版在 GPQA 基准测试中，更是以 88.4% 的成绩（不依赖工具）创造了新纪录。

需要注意的是，不能将使用工具的 AIME 结果与未使用工具的模型性能直接进行比较；这正展示了 GPT-5 如何充分发挥可用工具的优势。

GPT- 5 的智能能力与多模态表现全面提升

在指令遵循和智能工具调用的基准测试中，GPT-5 显示出显著的进步。这种能力使其能够有效地执行多步请求，进行跨工具的协同作业，并灵活应对上下文的变化。具体而言，这意味着 GPT-5 更能胜任复杂且不断变化的任务：它在遵循用户指令时更加准确，同时能够充分利用现有工具，从头到尾完成更多的工作环节。

以下是一个由 GPT-5 编写的小游戏示例：

多模态能力的基准测试

在多模态基准测试中，该模型的表现尤为突出，涵盖了视觉、视频、空间及科学推理等多个方面。增强的多模态能力使得 ChatGPT 能够更准确地分析图像等非文本输入，无论是解读图表数据、总结演示文稿中的图片，还是回答基于示意图的问题。

健康基准评估

经济价值任务的表现

在 OpenAI 内部进行的一项评估中，GPT-5 的表现同样出色。这一测试专注于评估模型在复杂经济价值型知识工作的能力。当启用推理功能时，GPT-5 在大约一半的案例中达到了或超越了人类专家的水平。在法律、物流、销售、工程等超过 40 个职业领域的综合任务中，它的表现全面优于 o3 模型和 ChatGPT Agent。