GPT-5.2 重磅发布:全面解读最新资讯!

共计 3957 个字符,预计需要花费 10 分钟才能阅读完成。

GPT-5.2的推出意味着人工智能技术的一次重大进步,其三个版本各具特色:Instant版以超快的响应速度著称,Thinking版专注于复杂任务,而Pro版则是解决难题的终极选择。在AIME 2025中获得满分,并在GDPval测试中以74.1%的成绩超越了人类专家,这款模型在编程和长文档处理方面也有显著提升,工作流程的重塑速度是人类的11倍。尽管价格上涨了40%,但其效率的提升反而降低了整体成本。

刚刚发布的GPT-5.2,包含了三个不同版本

  1. GPT-5.2 Instant:适用于日常对话,反应极快
  2. GPT-5.2 Thinking:专注于深度任务,包括代码、长文档、数学及规划
  3. GPT-5.2 Pro:功能最强大,适合复杂问题的解决,处理速度稍慢

这款模型的能力显然更为卓越,例如在AIME 2025中实现了满分,而在ARC-AGI-2的表现也达到了52.9%,与Gemini3相当。

今天起,付费用户将正式接收到更新,API服务也已经上线,标准版的价格相比于GPT-5.1上涨了40%。

GPT-5.2

核心评测

如图所示,以下是GPT-5.2的核心数据

GPT-5.2 基准测试

特别注意:

  • AIME 2025满分(无工具使用)
  • GPT-5.2 Pro在ARC-AGI-1测试中的成绩达到90.5%,成为首个突破90%的模型
  • ARC-AGI-2的分数从17.6%提升至52.9%,增长幅度超过三倍

真实工作处理能力

GDPval是OpenAI最新推出的基准测试

该测试涵盖了44种职业的实际工作任务,包括制作PPT、表格以及撰写分析报告

在70.9%的任务中,GPT-5.2 Thinking的表现超越或持平于行业专家,而GPT-5.2 Pro的成绩更高,达到了74.1%。

GPT-5.2的显著突破:知识工作效率与编程能力双双提升

根据最新数据显示,GPT-5.2在知识工作的处理速度方面,竟然达到了人类专家的11倍,且成本仅占1%以下。

一位评审员对此表示:

「整体效果仿佛出自于一个专业团队,布局和建议都十分专业,尽管存在少量的小错误需要调整。」

在投行分析师进行表格建模的任务中:

例如为《财富500强》公司构建三表模型和进行LBO模型的分析,平均得分从59.1%提升到了68.4%。

官方提供了一些对比示例。

相较于GPT-5.1,GPT-5.2生成的表格和PPT在细致度上有了显著的提升。

通过Workforce Planner进行对比,左侧为GPT-5.1,右侧为GPT-5.2。

使用此功能需要订阅付费版(包括Plus、Pro、Business、Enterprise),选择GPT-5.2的Thinking或Pro模式。

对于较复杂的任务,可能需要几分钟的运行时间。

编程能力

SWE-Bench Pro是全新的代码基准测试,其难度超越了SWE-bench Verified。

此测试涵盖四种编程语言,不仅仅局限于Python,更贴近真实的软件工程实践。

在此测试中,GPT-5.2 Thinking得分为55.6%,而GPT-5.1的得分仅为50.8%。

SWE-Bench Pro

前端开发能力同样得到了提升,尤其在3D和复杂UI方面。

官方发布了几个演示,都是通过单个提示生成的。

这是一次单个提示生成的海浪模拟。

对此,Windsurf的首席执行官表示:「自GPT-5以来,agentic coding领域的最大飞跃,版本号的小幅变化掩盖了智能的巨大提升。我们将其作为Windsurf和Devin核心工作流程的默认模型。」

图像处理能力

视觉处理能力显著提升,错误率几乎减少了一半。

GPT-5.2:全新升级的智能模型

在最近的发布会上,首席执行官强调:“自从GPT-5问世以来,agentic coding领域的进步可谓显著。尽管版本号变化不大,但智能水平却有了飞跃式提升。此模型现已成为Windsurf和Devin核心工作流程的标准配置。”

在图像处理方面,新的模型展现出了卓越的能力,其错误率几乎减少了一半,令人振奋。

例如,CharXiv Reasoning在科学论文图表问答中的准确率达到了88.7%,而GPT-5.1的表现仅为80.3%。同时,ScreenSpot-Pro在GUI截图理解上的准确率提升至86.3%,相比之下GPT-5.1仅为64.2%。

此外,空间位置的理解能力也得到了明显增强。例如,在一项主板识别的测试中,给模型提供了一张质量较低的主板图片,要求其标注各个组件的位置。结果显示,GPT-5.1只能识别出少数几个组件,并且位置标注也不太准确。

GPT-5.1的主板识别效果

与此对比,GPT-5.2能够精准地标注各个组件,并且位置标注基本正确。

GPT-5.2的主板识别效果

长文档处理能力

OpenAI MRCRv2测试旨在评估模型在长文档中整合多个信息点的能力。测试中,文档内包含多个相同的“针/needles”信息,模型需要回答第n个针的内容。

在四个变体的测试中,GPT-5.2在256k token长度时的正确率几乎达到了100%,相比之下GPT-5.1在同样条件下的正确率只有约30%。可以说,这是首个在四变体测试中接近100%(256k)正确率的模型。

长上下文处理中的4针测试

在8针测试中,GPT-5.2同样展现出显著的改进。

新一代模型的卓越表现

在长上下文处理方面,GPT-5.2展现出令人瞩目的精确度,8针测试的结果令人振奋,几乎达到了满分的标准。

通过API的新/compact端点,用户能够扩展有效的上下文窗口,这对于需要多次调用工具和长期运行的任务尤为适用。

工具调用的进步

Tau2-bench专注于多轮对话中的工具使用,模拟了真实的客服场景。

在电信行业中,GPT-5.2的表现达到了98.7%,而GPT-5.1则为95.6%。在零售领域,前者得分为82.0%,后者仅为77.9%。

具体案例分析

官方举了一个实际的例子:用户反映自己从巴黎飞往纽约的航班延误,错过了前往奥斯汀的转机,并且行李也遗失了,同时由于健康原因需要一个前排座位,在纽约又要过夜。

与此相比,GPT-5.1在处理此类请求时遗漏了多项关键步骤。

而GPT-5.2则能一次性完成所有请求,包括改签、安排特殊座位和申请赔偿,极大提高了效率。

数学与科学领域的突破

在数学测试方面,AIME 2025的全满分成绩引人注目,HMMT 2025年2月的正确率达到99.4%,而Pro版则表现出色,得分为100%。在GPQA Diamond中,前者为92.4%,后者为93.2%。FrontierMath的各个等级表现也有所不同,Tier 1-3的得分为40.3%,而Tier 4的成绩为14.6%。至于HLE(人类的最后考试),无工具情况下的得分为34.5%,而使用工具时则上涨至45.5%。

全新升级的GPT-5.2:令人瞩目的进步与挑战

在数学和科学领域,ARC-AGI的测试成绩展现了显著的提升。针对ARC-AGI-1,GPT-5.2的表现高达86.2%,而Pro版本更是突破了90%,达到了90.5%,这是一个令人振奋的里程碑。

然而,ARC-AGI-2的难度显著增加,GPT-5.2的得分降至52.9%,Pro版本则为54.2%。相比之下,GPT-5.1在ARC-AGI-2的得分仅为17.6%。这样的数据不禁让人深思,技术的进步是否总能如预期般顺利?

在ChatGPT的真实用户查询中,错误回复的比例显著降低,从8.8%降至6.2%,这意味着错误率减少了30%。这样的改进无疑为用户提供了更为可靠的体验。

价格变动

价格上涨,GPT-5.2相比于GPT-5.1贵了40%;而GPT-5.2 Pro的定价依旧高得惊人。每百万token的价格也随之上升。

官方解释称,尽管单价增加,但由于token效率的提升,达到相同效果所需的总成本反而更低。同时,ChatGPT的订阅费用并未变化。

可用性与推送

今天,ChatGPT开始向付费用户推出新的版本,包括Plus、Pro、Go、Business和Enterprise。如果您尚未看到,可以在几天后再试,因为GPT-5.1将在ChatGPT中保留三个月,之后将会下线。

同时,API也已正式上线,包含以下版本:

  • gpt-5.2:Thinking版
  • gpt-5.2-chat-latest:Instant版
  • gpt-5.2-pro:Pro版

全新发布!GPT-5.2 的重大更新解析

在 PlayGround 平台上,用户可以发现一系列新模型的精彩表现。

此次新增的 xhigh reasoning effort,专为那些对任务质量要求极高的场景而设计。同时,GPT-5.1、GPT-5 和 GPT-4.1 在 API 接口上暂时不会被下线,Codex 的优化版本也即将问世。

安全性提升

本次更新继承了 GPT-5 的安全完成研究,针对敏感话题如自杀、自残、心理健康和情感依赖等领域,模型的表现得到了显著改善。

安全性评估方面,系统开始实施年龄预测模型,18 岁以下的用户将自动受到敏感内容的限制。

官方表示,他们仍在不断改进关于过度拒绝的问题。

总结与展望

此次发布的内容相当丰富,Code Red 一周后,GPT-5.2 将正式推出,包含了三个不同版本。

这些版本性能更为强大,但价格也相应提高。

从今天开始,付费用户将陆续接收到更新,API 服务现已上线。

本文由 @灵山下的小妖怪 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来源于 Unsplash,基于 CC0 协议。

来源:今日头条
原文标题:GPT-5.2 发布:信息全整理 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-12-19发表,共计3957字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!