实测 GPT-5.2：为何价格飙升却实力微增？反击 Gemini 的秘密揭秘！

共计 5315 个字符，预计需要花费 14 分钟才能阅读完成。

在今天的凌晨时分，GPT 5.2 正式面向所有用户发布，力求超越 Gemini。

上个月，我刚取消了 ChatGPT Plus 的订阅，转向 Gemini。现在，是否需要因 GPT-5.2 的发布而重新考虑呢？

通过阅读网友的真实体验和 APPSO 的测试结果，或许能够找到答案。

这次终于没有画错表了。

GPT 5.2 实际上更新了三种模型：Instant、Thinking 和 Pro。如果你习惯了使用 Gemini 3.0 Pro，每次问答都经过深思熟虑，那么在使用 GPT-5.2 的 Thinking 或 Pro 模型时，可能会感觉到思考速度有所减缓，所需的时间比之前更长。

这一点在许多提前体验的用户分享中得到了证实。他们表示，GPT-5.2 相较于 5.1 在多个方面都有显著提升，而 GPT-5.2 Pro 特别适合于复杂推理和需要较长时间完成的任务，不过这也导致了结果等待的时间变得更加漫长。

例如，有用户反映，当他输入「帮我绘制一张 HLE 测试成绩的图表」时，GPT-5.2 Pro 足足花了 24 分钟才生成了这张表。

图片来源：
https://x.com/emollick/status/1999185755617300796/photo/1

值得庆幸的是，所有生成的信息都非常准确，尽管图表中显示最优结果的还是 Gemini 3.0 Pro。

这归功于 GPT-5.2 的知识更新至 2025 年 8 月，而 GPT-5.1 的知识截止日期则为 2024 年 9 月，而上月发布的 Gemini 3.0 截止到 2025 年 1 月。

在使用 GPT-5.2 Thinking 生成 OpenAI 模型发布历史图表时，反而没有花费太多时间，且信息相对准确。对于简单任务而言，Thinking 模型与 Pro 模型之间的时间差异十分明显。

GPT-5.2：在3D建模领域的崛起与创新

凭借超强的推理能力和最新的全球知识，结合图像的多模态理解与推理，GPT 5.2迅速在大型模型竞争中崭露头角，跃升至第二位。在网页开发项目中，GPT-5.2-High的排名紧随其后，位列第二，而GPT-5.2则位于第六。相比之下，Gemini 3.0 Pro排名第三，第一名依旧属于Claude。

LMArena官方还发布了一段实测视频，展示了GPT-5.2在完成一系列3D建模任务时的高完成度。然而，视频下方的评论区也有网友感叹道：“现在还是停留在2003年吗？”

这种利用three.js实现的3D效果，极其依赖模型的多模态理解、推理能力，以及在编程与程序设计方面的优化；显然，GPT-5.2的0.1版本升级是值得的。

目前，许多网友纷纷分享测试结果，而这些测试主要集中在构建完整的3D引擎上，GPT-5.2的表现也相当出色。例如，使用GPT-5.2 Thinking的高难度推理模式，在同一页面中成功构建了一个可以交互控制且支持导出4K分辨率的3D雪天冰块王国模型。

此外，还有基于GPT-5.2 Pro实现的3D波涛汹涌的哥特城市建筑作品。

提示词：创造一个视觉上吸引人的着色器，能够在twigl-dot-app中运行，仿佛是一个被狂风巨浪部分淹没的无限新哥特塔楼城市。｜来源：
https://x.com/emollick/status/1999185085719887978?s=20

探索3D艺术的边界：从图像生成到动态模拟

在对3D理解与推理能力的研究中，我们借鉴了Ian Goodfellow在Gemini 3.0 Pro发布时所使用的一个提示：上传一张图片，并指导模型基于该图像创建一个引人入胜的体素艺术场景，运用Three.js进行展示。

由于ChatGPT并未在画布内直接生成结果，我决定复制它在对话框里生成的代码，并在HTML视图中打开，效果如右图所示。

这个差异显而易见。虽然ChatGPT成功识别了上传图像中的内容，比如一棵粉红色的书、一片绿地、灰色的沉降和白色的水流，但其生成的3D动画与Gemini 3.0 Pro相比，显得有些简陋。

我只能说，奥特曼发出这个「红色警报」，说明了Gemini的实力。

在编程能力的检验中，经典的六边形小球物理运动测试是必不可少的。有博主通过增加小球的运动难度，用闪亮的红色3D小球来展示，效果非常炫酷，吸引了许多网友的关注，他们纷纷询问该如何实现；但也有网友提出，这些小球似乎并不受重力的影响。

随后，有网友回应表示，这是在模拟太空环境。

视频来源：
https://x.com/flavioAd/status/1999183432203567339

还有SVG代码的测试，其中包括骑自行车的鹈鹕。

图片

此外，有网友展示了他们使用GPT-5.2制作的森林火灾模拟器，能够调节速度、区域大小和火焰蔓延范围等多项参数。

图片来源：
https://x.com/1littlecoder/status/1999191170581434557?s=20

我们还创建了一个星球信号的网页，与这个森林火灾可视化网页有着相似的布局，左侧显示内容，而星星点点则换成了太空中的星球。

标题：探索AI编程新境界：从拍立得到交通灯模拟

我们构建了一个网页，灵感来源于森林火灾可视化，左侧展示内容，右侧则展示太空中的星球，形成一种独特的星球信号展示效果。

我们还尝试了使用之前的Gemini 3进行拍立得风格的网页相机应用开发。输入相同的提示，要求它创造出一个复古风格的相机网页。

该模拟应用的设计要求背景为软木板或深色木纹，左下角则固定一个使用纯CSS或SVG绘制的拟物化拍立得相机模型，镜头区域实时显示用户的摄像头画面。用户点击快门按钮时，会播放快门声，并让一张带有白色边框的相纸从相机顶部缓缓吐出。通过CSS滤镜，滑出的照片初始为高模糊黑白效果，经过5秒的平滑过渡后呈现清晰全彩状态。此外，所有显影完成的照片可以自由拖动，用户可随意摆放，并且照片会有随机旋转角度和阴影效果，点击某张照片可将其置顶，形成一个生动的拼贴墙。

令人惊讶的是，ChatGPT的表现相当出色，成功实现了拍立得应用的构建。

在测试Gemini 3.0 Pro时，我们发现它的编程能力强大，无需输入过多提示，只需提供截屏或视频，它就能轻松复刻。此次我们同样把一个视频提供给它，要求它重现古诗词生成网页的效果。

通过对比，我们发现GPT-5.1在处理视频配色方案时表现平平，而这次的GPT-5.2显然有所进步。尽管Gemini生成的网页可以直接添加AI功能，并通过API实现更为复杂的效果，但ChatGPT目前尚未将AI功能融入生成的网页中，因此诗歌部分仍然局限于已写好的几首。

除了经典的编程能力测试，一些网友还利用它编写Python代码。输入的提示是“编写一个Python代码，模拟单行道上交通灯的工作原理，并可视化随机速率进入的车辆”。

同时，他测试了GPT-5.2扩展思维和Claude Opus 4.5，结果不言而喻。我们经常收到读者询问哪个编程模型最优秀，Claude受到众多开发者的青睐，自然有其原因。

GPT-5.2与Claude Opus 4.5的深度比较：谁更胜一筹？

下方展示的是GPT-5.2，来源于：
https://x.com/diegocabezas01/status/1999228052379754508

值得注意的是，Claude模型曾被批评的一个主要问题是其费用较高，Claude Opus 4.5每百万个Token的输入费用为5美元，而输出则高达25美元。与之相比，GPT-5.2的定价也在不断上涨，相较于GPT-5.1，整体成本增加了40%。具体来说，GPT-5.2 Pro的输入费用为21美元，输出费用则达到168美元。

在OpenAI的官方博客中，提到GPT-5.2在图像处理能力上有显著提升。

GPT-5.2 Thinking被认为是目前最强大的视觉模型，其在图表推理和软件界面理解的错误率几乎减少了一半。

OpenAI给出了一个示例，展示了一块模糊的主板，它利用AI和一些带框的标记进行分析。虽然GPT-5.1和GPT-5.2在某些地方会犯错，但后者标记的区域显然更多。

那么，Nano Banana Pro如何呢？有网友使用Nano Banana Pro去掉了图片中的标注信息，并重新要求其标记新的目标框。你认为哪个更好呢？

从左到右依次为GPT-5.1、GPT-5.2和Nano Banana Pro｜图片来源：
https://x.com/bcaine/status/1999212747213656072

我的观察是，ChatGPT似乎在其他模型擅长的领域中“自取其辱”。Nano Banana在图像处理方面的表现无疑是行业领先的。尽管GPT-5.2的标记信息有所增加，但许多检测框的定位依然不够准确。

在编程和图像对比方面，GPT-5.2相比前代的GPT-5.1确实有了显著的进步。长期使用ChatGPT的用户应该会明显感受到这种升级带来的变化。然而，与其他模型相比，无论是在编程还是图像处理方面，仍然没有达到Nano Banana推出时的领先地位。

在审美和网页设计的领域，也有网友分享了他们用GPT-5.2制作的前端网页。大家可以关注一下，这次前端程序员是否又要面临新的挑战。

图片来源：
https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/23bfd127cb2561e33a34dc8dc50ec903~tplv-tt-origin-web:gif.jpeg?_iz=58558&from=article.pc_detail&lk3s=953192f4&x-expires=1769277280&x-signature=mLbagDbWCcWYwMollQ8FEQ5nCdQ%3D

标题：GPT-5.2：突破与不足并存的设计进化

与之前普遍存在的渐变紫色相比，GPT-5.2 的设计水平显著提升。然而，正如博主所提到的，这个版本似乎特别偏爱在屏幕上绘制方框，导致网格层层叠叠，令人印象深刻。

在设计能力的排名中，GPT-5.2 的表现同样令人瞩目。它从之前的十名开外飞速跃升至第三位，仅次于得分最高的 Gemini 3.0 Pro。

图片来源：
https://www.designarena.ai/leaderboard

我们为 GPT-5.2 提出了设计一个“高大上”网页的任务，目标是为一家人工智能公司制作首页。结果显示，GPT-5.2 依旧偏爱使用方框，渐变紫色的运用再次出现。

提示词：您是全球前沿设计与开发领域的顶尖设计师和开发者，任务是为AI公司创建一个完整的登陆页面，风格应与上传的图像相符，使用 {Dither + Shaders} 和 {WebGL + ThreeJs}。请主要专注于设计部分，而非开发。导入所有必要的文件和库：Three.js、WebGL、GSAP以及其他与3D开发相关的动画库。

最后，关于写作能力，GPT-5.2 在一些早期体验用户的反馈中显示出其创作长篇小说的潜力。

例如，当 ChatGPT 被要求生成 50 个情节创意时，它能够一次性完成，而不是像其他模型那样只给出部分内容。即便是生成一本 200 页的书籍请求，ChatGPT 也没有退缩，而是积极尝试，不仅构建了书籍的大致结构，还生成了 PDF 文件。

网友们指出，尽管书籍的质量相对较低，篇幅也较短，毕竟在当前阶段，它不可能一口气写出一本可出版的小说，但能够开始尝试，提供 50 个创意和构建 200 页的书，说明它具备了相当的思维深度。

最让人瞩目的地方在于，GPT-5.2 能够有效执行指令……它不仅仅是表面上跟随要求，而是真正完成了整个描述的任务。

目前，GPT-5.2 似乎已经逐步推送给所有用户，您的实际体验如何？

尽管 GPT-5.2 的升级在榜单上取得了多个亮眼成绩，但这并不足以让我从 Gemini 转向它。尽管在许多测试中表现出色，尤其是在生成 3D 程序的过程中，代码错误时有发生，同时整体审美风格也未能实现突破，而且它的价格仍然较为昂贵。

Gemini持续施压，技术升级引发关注

网友锐评

Gemini团队并未停下脚步，继续对奥特曼施加压力。尽管今晨没有推出新的模型，但他们对Gemini Deep Research进行了重新设计，并且现已可通过API进行访问。此外，未来还将对Gemini、Google搜索以及NotebookLM进行升级。

实测 GPT-5.2：为何价格飙升却实力微增？反击 Gemini 的秘密揭秘！

全新的Gemini深度研究Agent在“人类最后的考试”（HLE）中，以46.4%的成绩超越了刚发布的GPT-5.2 Thinking（45.5%）。同时，在Google推出的DeepSearchQA测试和BrowseComp测试中也取得了良好的效果。

看来，奥特曼的红色警报还将持续一段时间。