GPT-5重磅发布！免费体验新一代AI，Altman称迈向AGI的重要里程碑，微软率先接入！

共计 3823 个字符，预计需要花费 10 分钟才能阅读完成。

备受期待的 OpenAI 新产品终于发布了。

在美东时间 8 月 7 日的周四，OpenAI 正式推出了其最新的旗舰人工智能（AI）模型 GPT-5。此款模型是 OpenAI 首个“一体化”的 AI 系统，融合了 o 系列模型的推理能力与 GPT 系列的迅速响应能力。

OpenAI 的首席执行官 Sam Altman 在发布会上对 GPT- 5 给予了高度评价，称该模型为“全球最佳”，并指出这是对先前版本的“重大改进”，同时也表明，OpenAI 在实现通用人工智能（AGI）的道路上迈出了“重要一步”。

根据 OpenAI 的介绍，GPT- 5 在多个基准测试中展现了卓越的表现，尤其在编程、数学和健康领域达到了领先水平。在 SWE-bench Verified 代码测试中，GPT- 5 的准确率达到了 74.9%，稍微超越了 Anthropic 本周二发布的 Claude Opus 4.1。此外，GPT- 5 在幻觉问题上的表现也显著改善，错误信息率仅为 4.8%，远低于前一代模型 GPT-4o 的 20.6%。

从本周四起，GPT- 5 将向所有 ChatGPT 的免费用户以及 Plus、Pro 与 Team 的付费用户开放，作为默认模型使用，并将在一周内在 Enterprise 和 Edu 付费方案中上线。

与 GPT-4o 模型类似，GPT- 5 的免费与付费版本的主要区别在于使用量。Plus 用户享有更高的使用限制，Pro 用户则可以无限制使用，并获得增强版本 GPT-5 Pro。对于免费用户，完整的推理功能可能需要几天才能完全上线。一旦免费用户达到 GPT- 5 的使用限制，OpenAI 将为他们切换至较小的模型 GPT-5 mini。

OpenAI 还宣布，将以每年 1 美元的象征性费用向美国联邦政府机构提供 ChatGPT 产品，具体是企业版，包含强化的安全与隐私功能。

在 GPT- 5 发布的同时，微软也宣布将从本周四起，把 GPT- 5 整合进其众多产品中，包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry 等，以便企业和消费者用户能够立即体验到 GPT- 5 的高级推理和编程优势。

OpenAI 在 GPT- 5 的发布公告开头指出，GPT- 5 是 OpenAI“最智能、最快速、最实用的模型”，其内置的思维能力使得普通用户也能享受到专家级的智慧。

根据 OpenAI 的介绍，作为公司“最强大的模型”，GPT- 5 在三个关键领域取得了显著的提升。

首先，编程能力得到了极大增强。GPT- 5 是 OpenAI 迄今为止最强大的编码模型，在复杂的前端生成和大型代码库调试方面表现尤为突出，能够凭借一个提示创建美观且响应迅速的网站、应用程序和游戏。早期测试者注意到其在间距、排版和留白等设计选择上的明显改进。

在基于 GitHub 的现实世界编码任务基准测试 SWE-bench Verified 中，GPT- 5 在首次尝试中的准确率达到了 74.9%，超越了 OpenAI 推理模型 o3 的 69.1% 和 GPT-4o 的 30.8%。

评论指出，这一成绩表明 GPT- 5 的表现略优于 Anthropic 周二推出的 Claude Opus 4.1 以及谷歌 DeepMind 的 Gemini 2.5 Pro，后两者在 SWE-bench Verified 测试中的得分分别为 74.5% 和 59.6%。

然而，在衡量数学、人文和自然科学领域的模型表现的各学科专家级能力 Humanity’s Last Exam 测试中，带有扩展推理功能的 GPT- 5 增强版本 GPT-5 Pro 在使用工具时得分为 42%，略低于得分 44.4% 的 xAI 模型 Grok 4 Heavy。

Altman 指出，GPT- 5 在按需启动整个软件应用方面表现尤其优秀，这种被称为“氛围编码”的技术，允许 AI 根据自然语言提示生成功能代码，从而加快开发速度。

作为示例，OpenAI 的研究者展示了如何要求 GPT- 5 创建一款网页应用，帮助说英语的用户学习法语，而该应用需具备引人入胜的主题，包含抽认卡、测验、经典贪吃蛇游戏以及追踪每日学习进度的功能。

研究者将相同的提示词提交给两个 GPT- 5 窗口，几分钟后生成了两个不同的应用。OpenAI 的负责人表示，这些应用“存在一些缺陷”，但用户可以根据个人需求调整 AI 生成的内容，比如更改背景或添加更多标签页。

在创意写作方面，GPT- 5 能够处理复杂的写作任务，如无韵律的抑扬格五音步诗或自然流畅的自由诗。OpenAI 的 ChatGPT 业务副总 Nick Turley 提到，GPT- 5 在创意任务中的表现展现出“更好的品味”，响应更加自然。

健康咨询是 GPT- 5 的第三个重要提升领域。

该模型能够更加积极地识别潜在健康问题，并帮助用户解析医疗结果，尽管 OpenAI 强调，ChatGPT 不能替代医疗专业人员。

在名为 HealthBench Hard Hallucinations 的测试中，具有思考能力的 GPT- 5 的幻觉错误信息率仅为 1.6%。这一指标远低于 GPT-4o 和 o3 模型，后两者的错误信息率分别为 15.8% 和 12.9%。

OpenAI 表示，GPT- 5 相较于之前的模型更为可靠且实用，能够更准确地回答现实世界的问题，其幻觉的概率显著减少。

通过启用网络搜索，GPT- 5 在响应中出现事实错误的概率比 GPT-4o 低约 45%；经过思考后，GPT- 5 的响应中出现事实错误的概率比 o3 低约 80%。下图显示，GPT- 5 的错误信息率为 4.8%，而 GPT-4o 为 20.6%，o3 为 22%。

此外，OpenAI 表示，GPT- 5 采用了一种名为安全补全（safe completions）的新安全训练模式。这一模式教会模型在安全范围内尽可能提供最具帮助的回答。有时，这意味着需要部分回答用户的问题，或仅给出高层次的回应。

如果有必要拒绝，经过训练的 GPT- 5 会以透明的方式向用户说明拒绝的原因，并提供安全的替代方案。

在受控实验和 OpenAI 的生产模型中，这种安全补全方法被发现更加细致，能够更好地应对双重用途问题，增强对模糊意图的鲁棒性，减少不必要的拒绝。

OpenAI 的后训练负责人 Michelle Pokrass 表示：“GPT- 5 经过训练，能够识别何时无法完成任务，避免猜测，并更清晰地解释局限性，相比于之前的模型，这减少了无根据的断言。”

OpenAI 表示，GPT- 5 在执行指令方面的表现大为提升，其自定义指令的执行能力也得到了加强。OpenAI 将为所有 ChatGPT 用户推出四种预设个性的全新研究预览版。

这四种初始个性选项——愤世嫉俗者（Cynic）、机器人（Robot）、倾听者（Listener）和书呆子（Nerd）都是可选的，用户可在设置中随时调整，以匹配 ChatGPT 与用户的沟通风格。

这些个性最初适用于文本聊天，随后将扩展至语音聊天，使用户无需编写自定义提示词即可设置 ChatGPT 的交互方式——无论是简洁专业的、周到支持的，还是略带讽刺的。

OpenAI 表示，所有这些新个性都达到了或超过了内部评估标准，成功减少了谄媚行为。

在周四的简报会上，Altman 对 GPT- 5 给予了极高的评价，将其视为通往 AGI 的重要里程碑。他表示：

“在历史上任何时期，拥有像 GPT- 5 这样的技术都是不可想象的。”

“这是第一次感觉像是在与某一领域的专家进行对话。”

在简报会上，Altman 甚至不惜贬低 GPT- 4 以衬托 GPT- 5 的优势。他提到：

“我尝试过使用 GPT-4，但效果相当糟糕。”

GPT- 5 采用统一的系统架构，配备实时路由器，能够根据对话类型、复杂性及工具需求自动决定是进行快速响应还是深入“思考”。这使得用户不再需要选择合适的设置，从而使得 ChatGPT 更加易用。

在经济价值工作的内部基准测试中，使用推理模式的 GPT- 5 在大约一半的案例中表现与专家水平相当或更优，覆盖法律、物流、销售及工程等 40 多个职业。OpenAI 的副总 Nick Turley 称：“这个模型的表现确实令人满意。”

Altman 比喻，使用 GPT- 5 就像随时拥有一支学历全为博士的专家团队。他同时表示：“在许多新领域，思想的局限性使得人们无法发挥实际的执行能力。”

在 GPT- 5 发布的当天，微软便宣布将其整合到广泛的产品线中。在企业应用方面，Microsoft 365 Copilot 将利用 GPT- 5 更好地处理复杂问题，保持长对话中的专注并理解用户的上下文。企业用户可通过推理功能处理电子邮件、文档及文件。

对于普通消费者，Microsoft Copilot 的新智能模式将利用 GPT- 5 帮助用户寻找最佳解决方案。用户可以通过 copilot.microsoft.com 或在 Windows、Mac、Android 及 iOS 设备上的 Copilot 应用免费体验 GPT-5。

开发者将通过 GitHub Copilot 和 Visual Studio Code 获得 GPT- 5 的支持，以便于编写、测试和部署代码。而 Azure AI Foundry 平台将提供所有 GPT- 5 模型，配备 AI 驱动的模型路由器，依据每个任务的复杂性、性能需求和成本效益选择最佳模型。

微软 AI 红队使用严格的安全协议对 GPT- 5 推理模型进行了测试，结果显示，该模型在恶意软件生成、欺诈自动化等多种攻击模式下展现出 OpenAI 历代模型中最强的 AI 安全配置之一。

本文来源于华尔街见闻，欢迎下载 APP 以获取更多资讯。

正文完