GPT-5.2 重磅发布：全面解读最新资讯！

共计 3957 个字符，预计需要花费 10 分钟才能阅读完成。

GPT-5.2的推出意味着人工智能技术的一次重大进步，其三个版本各具特色：Instant版以超快的响应速度著称，Thinking版专注于复杂任务，而Pro版则是解决难题的终极选择。在AIME 2025中获得满分，并在GDPval测试中以74.1%的成绩超越了人类专家，这款模型在编程和长文档处理方面也有显著提升，工作流程的重塑速度是人类的11倍。尽管价格上涨了40%，但其效率的提升反而降低了整体成本。

刚刚发布的GPT-5.2，包含了三个不同版本

GPT-5.2 Instant：适用于日常对话，反应极快
GPT-5.2 Thinking：专注于深度任务，包括代码、长文档、数学及规划
GPT-5.2 Pro：功能最强大，适合复杂问题的解决，处理速度稍慢

这款模型的能力显然更为卓越，例如在AIME 2025中实现了满分，而在ARC-AGI-2的表现也达到了52.9%，与Gemini3相当。

今天起，付费用户将正式接收到更新，API服务也已经上线，标准版的价格相比于GPT-5.1上涨了40%。

GPT-5.2

核心评测

如图所示，以下是GPT-5.2的核心数据

GPT-5.2 基准测试

特别注意：

AIME 2025满分（无工具使用）
GPT-5.2 Pro在ARC-AGI-1测试中的成绩达到90.5%，成为首个突破90%的模型
ARC-AGI-2的分数从17.6%提升至52.9%，增长幅度超过三倍

真实工作处理能力

GDPval是OpenAI最新推出的基准测试

该测试涵盖了44种职业的实际工作任务，包括制作PPT、表格以及撰写分析报告

在70.9%的任务中，GPT-5.2 Thinking的表现超越或持平于行业专家，而GPT-5.2 Pro的成绩更高，达到了74.1%。

GPT-5.2的显著突破：知识工作效率与编程能力双双提升

根据最新数据显示，GPT-5.2在知识工作的处理速度方面，竟然达到了人类专家的11倍，且成本仅占1%以下。

一位评审员对此表示：

「整体效果仿佛出自于一个专业团队，布局和建议都十分专业，尽管存在少量的小错误需要调整。」

在投行分析师进行表格建模的任务中：

例如为《财富500强》公司构建三表模型和进行LBO模型的分析，平均得分从59.1%提升到了68.4%。

官方提供了一些对比示例。

相较于GPT-5.1，GPT-5.2生成的表格和PPT在细致度上有了显著的提升。

通过Workforce Planner进行对比，左侧为GPT-5.1，右侧为GPT-5.2。

使用此功能需要订阅付费版（包括Plus、Pro、Business、Enterprise），选择GPT-5.2的Thinking或Pro模式。

对于较复杂的任务，可能需要几分钟的运行时间。

编程能力

SWE-Bench Pro是全新的代码基准测试，其难度超越了SWE-bench Verified。

此测试涵盖四种编程语言，不仅仅局限于Python，更贴近真实的软件工程实践。

在此测试中，GPT-5.2 Thinking得分为55.6%，而GPT-5.1的得分仅为50.8%。

SWE-Bench Pro

前端开发能力同样得到了提升，尤其在3D和复杂UI方面。

官方发布了几个演示，都是通过单个提示生成的。

这是一次单个提示生成的海浪模拟。

对此，Windsurf的首席执行官表示：「自GPT-5以来，agentic coding领域的最大飞跃，版本号的小幅变化掩盖了智能的巨大提升。我们将其作为Windsurf和Devin核心工作流程的默认模型。」

图像处理能力

视觉处理能力显著提升，错误率几乎减少了一半。

GPT-5.2：全新升级的智能模型

在最近的发布会上，首席执行官强调：“自从GPT-5问世以来，agentic coding领域的进步可谓显著。尽管版本号变化不大，但智能水平却有了飞跃式提升。此模型现已成为Windsurf和Devin核心工作流程的标准配置。”

在图像处理方面，新的模型展现出了卓越的能力，其错误率几乎减少了一半，令人振奋。

例如，CharXiv Reasoning在科学论文图表问答中的准确率达到了88.7%，而GPT-5.1的表现仅为80.3%。同时，ScreenSpot-Pro在GUI截图理解上的准确率提升至86.3%，相比之下GPT-5.1仅为64.2%。

此外，空间位置的理解能力也得到了明显增强。例如，在一项主板识别的测试中，给模型提供了一张质量较低的主板图片，要求其标注各个组件的位置。结果显示，GPT-5.1只能识别出少数几个组件，并且位置标注也不太准确。

GPT-5.1的主板识别效果

与此对比，GPT-5.2能够精准地标注各个组件，并且位置标注基本正确。

GPT-5.2的主板识别效果

长文档处理能力

OpenAI MRCRv2测试旨在评估模型在长文档中整合多个信息点的能力。测试中，文档内包含多个相同的“针/needles”信息，模型需要回答第n个针的内容。

在四个变体的测试中，GPT-5.2在256k token长度时的正确率几乎达到了100%，相比之下GPT-5.1在同样条件下的正确率只有约30%。可以说，这是首个在四变体测试中接近100%（256k）正确率的模型。

长上下文处理中的4针测试

在8针测试中，GPT-5.2同样展现出显著的改进。

新一代模型的卓越表现

在长上下文处理方面，GPT-5.2展现出令人瞩目的精确度，8针测试的结果令人振奋，几乎达到了满分的标准。

通过API的新/compact端点，用户能够扩展有效的上下文窗口，这对于需要多次调用工具和长期运行的任务尤为适用。

Tau2-bench专注于多轮对话中的工具使用，模拟了真实的客服场景。

在电信行业中，GPT-5.2的表现达到了98.7%，而GPT-5.1则为95.6%。在零售领域，前者得分为82.0%，后者仅为77.9%。

具体案例分析

官方举了一个实际的例子：用户反映自己从巴黎飞往纽约的航班延误，错过了前往奥斯汀的转机，并且行李也遗失了，同时由于健康原因需要一个前排座位，在纽约又要过夜。

与此相比，GPT-5.1在处理此类请求时遗漏了多项关键步骤。

而GPT-5.2则能一次性完成所有请求，包括改签、安排特殊座位和申请赔偿，极大提高了效率。

在数学测试方面，AIME 2025的全满分成绩引人注目，HMMT 2025年2月的正确率达到99.4%，而Pro版则表现出色，得分为100%。在GPQA Diamond中，前者为92.4%，后者为93.2%。FrontierMath的各个等级表现也有所不同，Tier 1-3的得分为40.3%，而Tier 4的成绩为14.6%。至于HLE（人类的最后考试），无工具情况下的得分为34.5%，而使用工具时则上涨至45.5%。

全新升级的GPT-5.2：令人瞩目的进步与挑战

在数学和科学领域，ARC-AGI的测试成绩展现了显著的提升。针对ARC-AGI-1，GPT-5.2的表现高达86.2%，而Pro版本更是突破了90%，达到了90.5%，这是一个令人振奋的里程碑。

然而，ARC-AGI-2的难度显著增加，GPT-5.2的得分降至52.9%，Pro版本则为54.2%。相比之下，GPT-5.1在ARC-AGI-2的得分仅为17.6%。这样的数据不禁让人深思，技术的进步是否总能如预期般顺利？