全新发布！GPT-5.2 详尽解读与精彩亮点汇总

共计 3823 个字符，预计需要花费 10 分钟才能阅读完成。

GPT-5.2的推出代表了人工智能技术的一次重大进步，三个版本各具特色：Instant版追求迅速，Thinking版专注复杂任务，而Pro版则是解决棘手问题的理想选择。在AIME 2025中获得满分，并且在GDPval测试中有74.1%的任务超越了人类专家，这一模型在代码编写及长文档处理上有显著提升，工作效率是人类的11倍。尽管价格上涨了40%，但由于效率的提升，总体成本反而更为降低。

如今，GPT-5.2正式发布，包含以下三个版本：

GPT-5.2 Instant：适合日常交流，速度极快
GPT-5.2 Thinking：聚焦于深度任务，包括代码、长文档、数学问题及规划
GPT-5.2 Pro：最强版本，专为复杂问题设计，适合需要耐心的用户

该模型的实力显而易见，AIME 2025中获得满分，在ARC-AGI-2测试中达到了52.9%（与Gemini3相当）

从今天开始，付费用户将陆续获取该服务，API也已正式上线，标准版相较于GPT-5.1价格提升了40%

GPT-5.2

核心评测

以下是GPT-5.2的主要性能数据

GPT-5.2 Benchmark

特别提示：

AIME 2025满分（无工具使用）
GPT-5.2 Pro在ARC-AGI-1中取得90.5%，成为首个突破90%的模型
ARC-AGI-2的得分从17.6%跃升至52.9%，增长了三倍

处理实际工作

GDPval是OpenAI新推出的基准测试

该测试涵盖44种职业的真实工作任务，包括制作PPT、生成表格、撰写分析报告

在70.9%的任务中，GPT-5.2 Thinking超越或持平于行业专家，而GPT-5.2 Pro的表现更为突出，达到了74.1%

GPT-5.2：人类专家的超越与技能提升

根据最新数据，GPT-5.2在知识工作领域的效率是人类专家的11倍，而其成本却仅为1%。

一位评审员对此做出了这样的评价：

「此成果宛如由专业团队精心打造，布局与建议都显得相当专业，尽管仍需纠正一些小错误。」

在投资银行分析师进行表格建模的任务中，

例如为《财富》500强企业构建三大财务报表模型和杠杆收购模型，平均得分从59.1%提升至68.4%。

官方发布了一些对比数据，

显示GPT-5.2创建的表格和PPT在细致程度上明显优于GPT-5.1。

在Workforce Planner的对比中，左侧为GPT-5.1，右侧为GPT-5.2。

使用此功能需订阅付费版本（如Plus、Pro、Business、Enterprise），选择GPT-5.2 Thinking或Pro版本。

针对复杂任务的处理，可能需要几分钟的时间。

编写代码

SWE-Bench Pro是全新的代码基准测试，比SWE-bench Verified更为严格。

此测试涵盖四种编程语言，不仅限于Python，更接近实际的软件工程应用。

GPT-5.2 Thinking的得分为55.6%，而GPT-5.1的得分为50.8%。

SWE-Bench Pro

前端能力也有显著提升，尤其是在3D和复杂用户界面设计方面。

官方展示了几个演示，均为单个提示生成的结果。

海浪效果的模拟，单次提示生成。

对此，Windsurf的首席执行官表示：「自GPT-5以来，agentic coding发生了重大飞跃，此次版本的小幅升级显然低估了智能的提升幅度。我们将把它作为Windsurf和Devin核心工作流程的默认模型。」

视觉分析能力

在视觉能力方面，明显的提升使得错误率几乎减半。

GPT-5.2：智能提升的全新里程碑

在最近的更新中，GPT-5.2展现了显著的进步，尤其在科学论文图表的问答能力上，达到了88.7%的准确率，而其前一版本GPT-5.1则仅为80.3%。这种提升无疑为学术研究提供了更强大的支持。

另一项引人注目的进步体现在ScreenSpot-Pro的GUI截图理解上，GPT-5.2的表现为86.3%，相比之下，GPT-5.1仅为64.2%。这表明新版本在视觉分析方面的能力有了显著增强。

值得注意的是，空间位置理解的能力也得到了提升。官方展示了一组主板识别的对比图，展示了如何让模型标注出低质量主板图像中的各个组件。GPT-5.1在这方面的识别能力有限，标注的数量和位置均不准确，而GPT-5.2则能够准确识别并标注各个组件，位置也基本正确。

在图中可以明显看到，GPT-5.2在主板的识别上有了显著的进步。

接下来，我们来看OpenAI MRCRv2的表现，它测试的是在长文档中整合多个信息点的能力。在文档中插入多个相同的“针/needle”后，模型需要回答第n个针的内容。GPT-5.2在256k token长文本中的表现接近100%，而GPT-5.1在同样长度下仅能达到30%左右。这一成就是GPT系列首次在4-needle变体上接近100%的表现。

在长上下文的测试中，8 needle的任务更具挑战性，GPT-5.2同样展现了显著的提升。

新一代AI工具的强大表现与应用

在长上下文任务中，8针的应用显示出极大的挑战性，而API的新/紧凑端点则进一步扩展了有效上下文窗口，特别适合那些工具众多且任务持续时间较长的场景。

工具调用

Tau2-bench专注于多轮对话中的工具运用，模拟了客服环境的实际需求。

在电信行业，GPT-5.2的表现高达98.7%，而GPT-5.1为95.6%。在零售领域，GPT-5.2同样优于前代产品，达到了82.0%，而GPT-5.1则为77.9%。

工具调用实例

例如，用户描述道：“我的航班从巴黎飞往纽约延误，错过了去奥斯汀的转机，行李也丢失了，需要在纽约过夜，还因为医疗原因要求前排座位。”

相比之下，GPT-5.1在处理这一请求时漏掉了多个步骤。

在工具调用方面，GPT-5.2能够一次性处理所有请求，包括改签、特殊座位和赔偿事项，轻松搞定。

GPT-5.2在工具调用的灵活性与效率上展现出卓越的能力。

数学与科学的成绩

AIME 2025的满分率为100%，且无需工具支持；HMMT 2025年2月的得分为99.4%，Pro版本达到100%；GPQA Diamond的得分为92.4%，Pro版本则为93.2%；FrontierMath的Tier 1-3得分为40.3%，Tier 4则为14.6%；HLE（人类最后考试）的得分为无工具时的34.5%和有工具时的45.5%。

新一代GPT-5.2的全面解析

在数学和科学领域，ARC-AGI被用于评估抽象推理能力。ARC-AGI-1的表现令人瞩目，GPT-5.2 Thinking得分达到了86.2%，而Pro版本更是突破了90%，取得了90.5%的佳绩，成为第一个超越90%的模型。

相较之下，ARC-AGI-2的难度显著提升。GPT-5.2 Thinking在该测试中的得分为52.9%，Pro版本为54.2%，而GPT-5.1在ARC-AGI-2的得分仅为17.6%。这样的结果显示出新版本在面对更高难度挑战时的优势。

关于幻觉的最新研究