共计 3823 个字符,预计需要花费 10 分钟才能阅读完成。
GPT-5.2的推出代表了人工智能技术的一次重大进步,三个版本各具特色:Instant版追求迅速,Thinking版专注复杂任务,而Pro版则是解决棘手问题的理想选择。在AIME 2025中获得满分,并且在GDPval测试中有74.1%的任务超越了人类专家,这一模型在代码编写及长文档处理上有显著提升,工作效率是人类的11倍。尽管价格上涨了40%,但由于效率的提升,总体成本反而更为降低。

如今,GPT-5.2正式发布,包含以下三个版本:
- GPT-5.2 Instant:适合日常交流,速度极快
- GPT-5.2 Thinking:聚焦于深度任务,包括代码、长文档、数学问题及规划
- GPT-5.2 Pro:最强版本,专为复杂问题设计,适合需要耐心的用户
该模型的实力显而易见,AIME 2025中获得满分,在ARC-AGI-2测试中达到了52.9%(与Gemini3相当)
从今天开始,付费用户将陆续获取该服务,API也已正式上线,标准版相较于GPT-5.1价格提升了40%

GPT-5.2
核心评测
以下是GPT-5.2的主要性能数据

GPT-5.2 Benchmark
特别提示:
- AIME 2025满分(无工具使用)
- GPT-5.2 Pro在ARC-AGI-1中取得90.5%,成为首个突破90%的模型
- ARC-AGI-2的得分从17.6%跃升至52.9%,增长了三倍
处理实际工作
GDPval是OpenAI新推出的基准测试
该测试涵盖44种职业的真实工作任务,包括制作PPT、生成表格、撰写分析报告
在70.9%的任务中,GPT-5.2 Thinking超越或持平于行业专家,而GPT-5.2 Pro的表现更为突出,达到了74.1%
根据最新数据,GPT-5.2在知识工作领域的效率是人类专家的11倍,而其成本却仅为1%。
一位评审员对此做出了这样的评价:
「此成果宛如由专业团队精心打造,布局与建议都显得相当专业,尽管仍需纠正一些小错误。」
在投资银行分析师进行表格建模的任务中,
例如为《财富》500强企业构建三大财务报表模型和杠杆收购模型,平均得分从59.1%提升至68.4%。
官方发布了一些对比数据,
显示GPT-5.2创建的表格和PPT在细致程度上明显优于GPT-5.1。

在Workforce Planner的对比中,左侧为GPT-5.1,右侧为GPT-5.2。
使用此功能需订阅付费版本(如Plus、Pro、Business、Enterprise),选择GPT-5.2 Thinking或Pro版本。
针对复杂任务的处理,可能需要几分钟的时间。
编写代码
SWE-Bench Pro是全新的代码基准测试,比SWE-bench Verified更为严格。
此测试涵盖四种编程语言,不仅限于Python,更接近实际的软件工程应用。
GPT-5.2 Thinking的得分为55.6%,而GPT-5.1的得分为50.8%。

SWE-Bench Pro
前端能力也有显著提升,尤其是在3D和复杂用户界面设计方面。
官方展示了几个演示,均为单个提示生成的结果。

海浪效果的模拟,单次提示生成。
对此,Windsurf的首席执行官表示:「自GPT-5以来,agentic coding发生了重大飞跃,此次版本的小幅升级显然低估了智能的提升幅度。我们将把它作为Windsurf和Devin核心工作流程的默认模型。」
视觉分析能力
在视觉能力方面,明显的提升使得错误率几乎减半。
GPT-5.2:智能提升的全新里程碑
在最近的更新中,GPT-5.2展现了显著的进步,尤其在科学论文图表的问答能力上,达到了88.7%的准确率,而其前一版本GPT-5.1则仅为80.3%。这种提升无疑为学术研究提供了更强大的支持。
另一项引人注目的进步体现在ScreenSpot-Pro的GUI截图理解上,GPT-5.2的表现为86.3%,相比之下,GPT-5.1仅为64.2%。这表明新版本在视觉分析方面的能力有了显著增强。
值得注意的是,空间位置理解的能力也得到了提升。官方展示了一组主板识别的对比图,展示了如何让模型标注出低质量主板图像中的各个组件。GPT-5.1在这方面的识别能力有限,标注的数量和位置均不准确,而GPT-5.2则能够准确识别并标注各个组件,位置也基本正确。

在图中可以明显看到,GPT-5.2在主板的识别上有了显著的进步。
接下来,我们来看OpenAI MRCRv2的表现,它测试的是在长文档中整合多个信息点的能力。在文档中插入多个相同的“针/needle”后,模型需要回答第n个针的内容。GPT-5.2在256k token长文本中的表现接近100%,而GPT-5.1在同样长度下仅能达到30%左右。这一成就是GPT系列首次在4-needle变体上接近100%的表现。

在长上下文的测试中,8 needle的任务更具挑战性,GPT-5.2同样展现了显著的提升。
在长上下文任务中,8针的应用显示出极大的挑战性,而API的新/紧凑端点则进一步扩展了有效上下文窗口,特别适合那些工具众多且任务持续时间较长的场景。
工具调用
Tau2-bench专注于多轮对话中的工具运用,模拟了客服环境的实际需求。
在电信行业,GPT-5.2的表现高达98.7%,而GPT-5.1为95.6%。在零售领域,GPT-5.2同样优于前代产品,达到了82.0%,而GPT-5.1则为77.9%。

工具调用实例
例如,用户描述道:“我的航班从巴黎飞往纽约延误,错过了去奥斯汀的转机,行李也丢失了,需要在纽约过夜,还因为医疗原因要求前排座位。”
相比之下,GPT-5.1在处理这一请求时漏掉了多个步骤。

在工具调用方面,GPT-5.2能够一次性处理所有请求,包括改签、特殊座位和赔偿事项,轻松搞定。

GPT-5.2在工具调用的灵活性与效率上展现出卓越的能力。
数学与科学的成绩
AIME 2025的满分率为100%,且无需工具支持;HMMT 2025年2月的得分为99.4%,Pro版本达到100%;GPQA Diamond的得分为92.4%,Pro版本则为93.2%;FrontierMath的Tier 1-3得分为40.3%,Tier 4则为14.6%;HLE(人类最后考试)的得分为无工具时的34.5%和有工具时的45.5%。
新一代GPT-5.2的全面解析
在数学和科学领域,ARC-AGI被用于评估抽象推理能力。ARC-AGI-1的表现令人瞩目,GPT-5.2 Thinking得分达到了86.2%,而Pro版本更是突破了90%,取得了90.5%的佳绩,成为第一个超越90%的模型。
相较之下,ARC-AGI-2的难度显著提升。GPT-5.2 Thinking在该测试中的得分为52.9%,Pro版本为54.2%,而GPT-5.1在ARC-AGI-2的得分仅为17.6%。这样的结果显示出新版本在面对更高难度挑战时的优势。
关于幻觉的最新研究
在对ChatGPT真实用户查询的测试中,错误回复的比例显著下降,从8.8%降低至6.2%,减少幅度达到30%。这一进步标志着AI在理解和回应用户问题方面的显著提升。
价格变化分析
价格上涨,GPT-5.2的费用比其前代GPT-5.1高出40%;而GPT-5.2 Pro的定价依然居高不下,让不少用户感到吃惊。

每百万token的定价
官方指出,尽管单个token的价格上升,但由于token的使用效率提高,达到相同效果所需的总花费反而降低了。
值得注意的是,ChatGPT的订阅费用保持不变。
服务可用性更新
今天起,ChatGPT向付费用户推出新版本,包括:Plus、Pro、Go、Business和Enterprise。
如果您尚未看到更新,可以在几天后再试,GPT-5.1将在ChatGPT中继续支持三个月,之后将被下线。
API现已上线,提供以下版本:
新模型发布:GPT-5.2及其重要更新
在PlayGround平台上,用户能够体验到这些新模型的功能。
新增的xhigh reasoning effort,专为处理高质量任务而设计,而GPT-5.1、GPT-5和GPT-4.1在API中仍将继续提供服务,Codex的优化版本也在即将推出。
安全性提升
本次更新延续了GPT-5在安全完备性方面的研究,尤其在自杀、自残、心理健康及情感依赖等敏感话题的处理上,表现得更为出色。
此外,已经开始部署年龄预测模型,18岁以下的用户在使用时将自动限制访问敏感内容。官方也表示,针对过度拒绝的问题仍在持续改进中。
总结与展望
此次发布涵盖了重要的更新内容。
Code Red一周后,GPT-5.2将正式推出,并提供三个不同版本。
这些新版本不仅性能更为强大,价格也相应提高。
从今天起,这些更新将逐步推送给付费用户,同时API也已正式上线。
本文由@灵山下的小妖怪原创发布于人人都是产品经理,未经允许禁止转载。
封面图片来源于Unsplash,遵循CC0协议。
