深入探讨 Gemini 2.5 Deep Think 的评价与影响

没有评论

共计 2345 个字符，预计需要花费 6 分钟才能阅读完成。

https://blog.google/products/gemini/gemini-2-5-deep-think/

好消息，谷歌的最新模型 Gemini 2.5 Deep Think 终于正式推出了！

不过，坏消息是此功能目前仅对 Gemini Ultra 用户开放。

没错，它就是那个在国际数学奥林匹克（IMO）中斩获金牌的 AI 模型。

在全球范围内，它用 4.5 小时解决了 6 道题目中的 5 道，以 35 分的成绩成功摘金。

从去年的银牌到今年的金牌，Gemini 的进步显而易见。

如今，这位“数学天才”正式加入到你的 Gemini 应用中。

从今天起，Gemini 应用中正式推出 Deep Think 模式。

虽然功能强大，但使用门槛较高：仅限于 Gemini Ultra 用户。

Gemini Ultra 是谷歌在今年 I/O 大会上推出的“高端版”订阅，月费为 249.99 美元（约合 1800 元），与 ChatGPT Pro、Claude Max 和 SuperGrok Heavy 竞争。

虽然价格不菲，但确实提供了全面的功能：最强的模型、最丰富的功能，包括 Project Mariner、YouTube 会员和 30 TB 的谷歌云盘。

要启用 Deep Think 模式，用户需首先将模型切换至 Gemini 2.5 Pro，然后在输入框下方选择“Deep Think”。

每天有固定的使用限制，但支持更复杂和更长的推理结果。

值得注意的是，Ultra 用户所使用的 Deep Think 是 IMO 金牌模型的“变体”，根据官方说法，它的速度更快，更适合日常任务。

IMO 金牌模型仅向部分数学家开放体验。

这就是它的样子，看看这图标就能感受到它的“霸气”。

Deep Think 的核心优势在于平行思考（Parallel Thinking）。

传统的大模型通常采用线性推理，一条路走到黑；而 Deep Think 的思维方式则是：

同时开启多个思路，探索不同的解法；
相互交叉验证，排除错误并结合最佳解；
延长“思考时间”，用更多的计算能力换取更稳定的最终答案。

谷歌官方将其比喻为人类在解决问题时，通常会先构思多个方案、草拟草图、推导计算，最终选择最佳路径。

这种机制在数学、算法设计、科学研究及复杂代码场景中展现出极大的优势。

最明显的例证便是今年的 IMO 比赛。

6 道题目中完美解答了 5 道；
在官方答卷中完成了 4.5 小时；
以 35 分的成绩成功摘金，成为首个获得 IMO 官方认可的 AI 金牌得主（补充：OpenAI 的金牌并未经过 IMO 官方认证）。

谷歌官方特别强调，Deep Think 在解题过程中始终使用自然语言，不会在中途调用代码或使用外部工具。

连 IMO 主席都称赞它的解题过程“清晰、精确”。

Deep Think 不仅擅长解答奥数题，还对高难度复杂任务驾轻就熟。

在相同创作任务中，谷歌三款模型的结果差异显著。

Gemini 2.5 Flash：像是小学生的作业，虽然可用，但简单得有些“寒碜”；
Gemini 2.5 Pro：开始具备一定的设计感，地形和细节有所丰富；
Gemini 2.5 Deep Think：直接化身为“艺术家”，细节丰富，场景生动立体。

从基准测试结果来看，Deep Think 的表现可以用“碾压”来形容。

在不启用外部工具的情况下，它在 HLE（人类最后一考）获得了 34.8% 的最高分，超出 OpenAI o3 和“跑分大王”Grok 4 近 10%。

在代码和数学表现上也同样优秀，AIME 2025 的得分高达 99.2%，几乎满分；而 IMO 2025 则展现出彻底的“降维打击”，将其他模型远远甩在身后。

谷歌官方对 Deep Think 的定位非常明确：它并非用于闲聊，而是专注于硬核任务。

官方列出了一些典型的应用场景。

1. 迭代设计与创意开发

如果你需要进行一些复杂、分步迭代的创意工作，如网页设计、游戏场景建模、产品原型优化，Deep Think 将如同“多线程创意助手”，首先提出几种方案，然后逐步打磨到最优解。

例如，在关于“像素风宝塔花园”的案例中，三个版本从 Gemini 2.5 Flash 到 Deep Think，在细节和美感上显著提升。

2. 科研推理与数学发现

科研人员是 Deep Think 的另一类核心用户。它擅长处理复杂文献、提出假设并进行推导验证，特别是在数理逻辑和公式推导方面。

谷歌甚至表示，它有潜力帮助研究者探索数学猜想，甚至可能加速科学发现的过程。

3. 高难度算法与程序开发

对于程序员而言，Deep Think 不仅可以编写代码，更擅长分析问题、建模算法、权衡时间与空间复杂度，逐步接近最优解。在 LiveCodeBench 等极限环境中也能取得 87.6% 的高分。

ChatGPT 使 AI 成为日常生活的助手。

而 Deep Think 更加专注于高难度任务和专业工作流程。

对于日常问答或轻量创作而言，Gemini Ultra 的 249.99 美元月费可能显得过于昂贵。

但对于科研、算法开发或复杂项目设计，Deep Think 可能成为值得投资的选择。

我是木易，一位专注于 AI 领域的技术产品经理，拥有国内 Top2 本科和美国 Top10 CS 硕士学位。
我相信 AI 是普通人的“外挂”，致力于分享 AI 各方面的知识。这里有最新的 AI 科普、工具评测、效率秘籍和行业洞察。
欢迎关注“AI 信息 Gap”，让 AI 为你的未来加速。

来源：知乎

原文标题：如何评价 Gemini 2.5 Deep Think？– 知乎

原文链接：https://www.zhihu.com/question/1934732121529909531/answer/1934847860773462081

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

发表至： AI大模型

2025-10-11

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

探索2024年全球AI大模型市场动态，重点分析最新技术趋势与应用场景

文心一言ERNIE-M大模型即将发布，科技界将迎来怎样的变革？

垂类AI大模型2025年颠覆行业传言四起权威机构重磅发声：技术突破属实

Gemini为何在用户体验上优于GPT？

揭秘国内外AI大模型的发展现状与未来趋势，深度解析行业龙头股最新动态

独家全栈AI大模型引领科技潮流！未来竞争力在哪里内幕重磅揭秘

Sora视频生成新模型：革新与挑战并存的未来之路

2023年AI大模型概念股龙头及应用现状分析，揭示中国市场潜力与排名

阿里新推出的Qwen3-235B-A22B-Thinking-2507开源模型，值得我们如何深度解读？

深入探讨 Gemini 2.5 Deep Think 的评价与影响

01|Ultra 用户的独特新功能

02|“平行思考”，Deep Think 的核心优势

03|全面提升，从数学到编程

04|Deep Think 的实际应用

结论

推荐内容

百度：引领数字时代的智能搜索引擎

轻松搭建你的 AI 助手：保姆级 OpenClaw（原 Clawdbot）飞书对接全攻略！

百度文心快码AI IDE重磅发布：首创设计稿一键转代码功能，全面支持MCP！

“文心快码Spec模式：我打造的‘预备助手’，让会议发言不再紧张（源码分享）”

轻松上手！文心快码AI编码助手安装全攻略

OpenAI重磅引入OpenClaw创始人，布局AI代理时代的战略先机

OpenAI吸纳OpenClaw创始人，助力个人智能体革新！

本地化部署真相揭秘：OpenClaw数据链路实测分析报告