共计 3823 个字符,预计需要花费 10 分钟才能阅读完成。
备受期待的 OpenAI 新产品终于发布了。
在美东时间 8 月 7 日的周四,OpenAI 正式推出了其最新的旗舰人工智能(AI)模型 GPT-5。此款模型是 OpenAI 首个“一体化”的 AI 系统,融合了 o 系列模型的推理能力与 GPT 系列的迅速响应能力。
OpenAI 的首席执行官 Sam Altman 在发布会上对 GPT- 5 给予了高度评价,称该模型为“全球最佳”,并指出这是对先前版本的“重大改进”,同时也表明,OpenAI 在实现通用人工智能(AGI)的道路上迈出了“重要一步”。
根据 OpenAI 的介绍,GPT- 5 在多个基准测试中展现了卓越的表现,尤其在编程、数学和健康领域达到了领先水平。在 SWE-bench Verified 代码测试中,GPT- 5 的准确率达到了 74.9%,稍微超越了 Anthropic 本周二发布的 Claude Opus 4.1。此外,GPT- 5 在幻觉问题上的表现也显著改善,错误信息率仅为 4.8%,远低于前一代模型 GPT-4o 的 20.6%。
从本周四起,GPT- 5 将向所有 ChatGPT 的免费用户以及 Plus、Pro 与 Team 的付费用户开放,作为默认模型使用,并将在一周内在 Enterprise 和 Edu 付费方案中上线。
与 GPT-4o 模型类似,GPT- 5 的免费与付费版本的主要区别在于使用量。Plus 用户享有更高的使用限制,Pro 用户则可以无限制使用,并获得增强版本 GPT-5 Pro。对于免费用户,完整的推理功能可能需要几天才能完全上线。一旦免费用户达到 GPT- 5 的使用限制,OpenAI 将为他们切换至较小的模型 GPT-5 mini。
OpenAI 还宣布,将以每年 1 美元的象征性费用向美国联邦政府机构提供 ChatGPT 产品,具体是企业版,包含强化的安全与隐私功能。
在 GPT- 5 发布的同时,微软也宣布将从本周四起,把 GPT- 5 整合进其众多产品中,包括 Microsoft 365 Copilot、Copilot、GitHub Copilot 和 Azure AI Foundry 等,以便企业和消费者用户能够立即体验到 GPT- 5 的高级推理和编程优势。
GPT- 5 在编程、创意写作与健康领域的三大优势
OpenAI 在 GPT- 5 的发布公告开头指出,GPT- 5 是 OpenAI“最智能、最快速、最实用的模型”,其内置的思维能力使得普通用户也能享受到专家级的智慧。
根据 OpenAI 的介绍,作为公司“最强大的模型”,GPT- 5 在三个关键领域取得了显著的提升。
首先,编程能力得到了极大增强。GPT- 5 是 OpenAI 迄今为止最强大的编码模型,在复杂的前端生成和大型代码库调试方面表现尤为突出,能够凭借一个提示创建美观且响应迅速的网站、应用程序和游戏。早期测试者注意到其在间距、排版和留白等设计选择上的明显改进。
在基于 GitHub 的现实世界编码任务基准测试 SWE-bench Verified 中,GPT- 5 在首次尝试中的准确率达到了 74.9%,超越了 OpenAI 推理模型 o3 的 69.1% 和 GPT-4o 的 30.8%。
评论指出,这一成绩表明 GPT- 5 的表现略优于 Anthropic 周二推出的 Claude Opus 4.1 以及谷歌 DeepMind 的 Gemini 2.5 Pro,后两者在 SWE-bench Verified 测试中的得分分别为 74.5% 和 59.6%。
然而,在衡量数学、人文和自然科学领域的模型表现的各学科专家级能力 Humanity’s Last Exam 测试中,带有扩展推理功能的 GPT- 5 增强版本 GPT-5 Pro 在使用工具时得分为 42%,略低于得分 44.4% 的 xAI 模型 Grok 4 Heavy。
Altman 指出,GPT- 5 在按需启动整个软件应用方面表现尤其优秀,这种被称为“氛围编码”的技术,允许 AI 根据自然语言提示生成功能代码,从而加快开发速度。
作为示例,OpenAI 的研究者展示了如何要求 GPT- 5 创建一款网页应用,帮助说英语的用户学习法语,而该应用需具备引人入胜的主题,包含抽认卡、测验、经典贪吃蛇游戏以及追踪每日学习进度的功能。
研究者将相同的提示词提交给两个 GPT- 5 窗口,几分钟后生成了两个不同的应用。OpenAI 的负责人表示,这些应用“存在一些缺陷”,但用户可以根据个人需求调整 AI 生成的内容,比如更改背景或添加更多标签页。
在创意写作方面,GPT- 5 能够处理复杂的写作任务,如无韵律的抑扬格五音步诗或自然流畅的自由诗。OpenAI 的 ChatGPT 业务副总 Nick Turley 提到,GPT- 5 在创意任务中的表现展现出“更好的品味”,响应更加自然。
健康咨询是 GPT- 5 的第三个重要提升领域。
该模型能够更加积极地识别潜在健康问题,并帮助用户解析医疗结果,尽管 OpenAI 强调,ChatGPT 不能替代医疗专业人员。
在名为 HealthBench Hard Hallucinations 的测试中,具有思考能力的 GPT- 5 的幻觉错误信息率仅为 1.6%。这一指标远低于 GPT-4o 和 o3 模型,后两者的错误信息率分别为 15.8% 和 12.9%。
显著降低幻觉可能性 新的安全训练模式
OpenAI 表示,GPT- 5 相较于之前的模型更为可靠且实用,能够更准确地回答现实世界的问题,其幻觉的概率显著减少。
通过启用网络搜索,GPT- 5 在响应中出现事实错误的概率比 GPT-4o 低约 45%;经过思考后,GPT- 5 的响应中出现事实错误的概率比 o3 低约 80%。下图显示,GPT- 5 的错误信息率为 4.8%,而 GPT-4o 为 20.6%,o3 为 22%。
此外,OpenAI 表示,GPT- 5 采用了一种名为安全补全(safe completions)的新安全训练模式。这一模式教会模型在安全范围内尽可能提供最具帮助的回答。有时,这意味着需要部分回答用户的问题,或仅给出高层次的回应。
如果有必要拒绝,经过训练的 GPT- 5 会以透明的方式向用户说明拒绝的原因,并提供安全的替代方案。
在受控实验和 OpenAI 的生产模型中,这种安全补全方法被发现更加细致,能够更好地应对双重用途问题,增强对模糊意图的鲁棒性,减少不必要的拒绝。
OpenAI 的后训练负责人 Michelle Pokrass 表示:“GPT- 5 经过训练,能够识别何时无法完成任务,避免猜测,并更清晰地解释局限性,相比于之前的模型,这减少了无根据的断言。”
推出四种可选的 ChatGPT 聊天个性
OpenAI 表示,GPT- 5 在执行指令方面的表现大为提升,其自定义指令的执行能力也得到了加强。OpenAI 将为所有 ChatGPT 用户推出四种预设个性的全新研究预览版。
这四种初始个性选项——愤世嫉俗者(Cynic)、机器人(Robot)、倾听者(Listener)和书呆子(Nerd)都是可选的,用户可在设置中随时调整,以匹配 ChatGPT 与用户的沟通风格。
这些个性最初适用于文本聊天,随后将扩展至语音聊天,使用户无需编写自定义提示词即可设置 ChatGPT 的交互方式——无论是简洁专业的、周到支持的,还是略带讽刺的。
OpenAI 表示,所有这些新个性都达到了或超过了内部评估标准,成功减少了谄媚行为。
Altman 盛赞历史性突破 用回 GPT- 4 后效果差强人意
在周四的简报会上,Altman 对 GPT- 5 给予了极高的评价,将其视为通往 AGI 的重要里程碑。他表示:
“在历史上任何时期,拥有像 GPT- 5 这样的技术都是不可想象的。”
“这是第一次感觉像是在与某一领域的专家进行对话。”
在简报会上,Altman 甚至不惜贬低 GPT- 4 以衬托 GPT- 5 的优势。他提到:
“我尝试过使用 GPT-4,但效果相当糟糕。”
GPT- 5 采用统一的系统架构,配备实时路由器,能够根据对话类型、复杂性及工具需求自动决定是进行快速响应还是深入“思考”。这使得用户不再需要选择合适的设置,从而使得 ChatGPT 更加易用。
在经济价值工作的内部基准测试中,使用推理模式的 GPT- 5 在大约一半的案例中表现与专家水平相当或更优,覆盖法律、物流、销售及工程等 40 多个职业。OpenAI 的副总 Nick Turley 称:“这个模型的表现确实令人满意。”
Altman 比喻,使用 GPT- 5 就像随时拥有一支学历全为博士的专家团队。他同时表示:“在许多新领域,思想的局限性使得人们无法发挥实际的执行能力。”
微软迅速整合抢占市场
在 GPT- 5 发布的当天,微软便宣布将其整合到广泛的产品线中。在企业应用方面,Microsoft 365 Copilot 将利用 GPT- 5 更好地处理复杂问题,保持长对话中的专注并理解用户的上下文。企业用户可通过推理功能处理电子邮件、文档及文件。
对于普通消费者,Microsoft Copilot 的新智能模式将利用 GPT- 5 帮助用户寻找最佳解决方案。用户可以通过 copilot.microsoft.com 或在 Windows、Mac、Android 及 iOS 设备上的 Copilot 应用免费体验 GPT-5。
开发者将通过 GitHub Copilot 和 Visual Studio Code 获得 GPT- 5 的支持,以便于编写、测试和部署代码。而 Azure AI Foundry 平台将提供所有 GPT- 5 模型,配备 AI 驱动的模型路由器,依据每个任务的复杂性、性能需求和成本效益选择最佳模型。
微软 AI 红队使用严格的安全协议对 GPT- 5 推理模型进行了测试,结果显示,该模型在恶意软件生成、欺诈自动化等多种攻击模式下展现出 OpenAI 历代模型中最强的 AI 安全配置之一。
本文来源于华尔街见闻,欢迎下载 APP 以获取更多资讯。