共计 2345 个字符,预计需要花费 6 分钟才能阅读完成。
https://blog.google/products/gemini/gemini-2-5-deep-think/
好消息,谷歌的最新模型 Gemini 2.5 Deep Think
终于正式推出了!
不过,坏消息是此功能目前仅对 Gemini Ultra 用户开放。

没错,它就是那个在国际数学奥林匹克(IMO)中斩获金牌的 AI 模型。
在全球范围内,它用 4.5 小时解决了 6 道题目中的 5 道,以 35 分的成绩成功摘金。
从去年的银牌到今年的金牌,Gemini 的进步显而易见。
如今,这位“数学天才”正式加入到你的 Gemini 应用中。
01|Ultra 用户的独特新功能
从今天起,Gemini 应用中正式推出 Deep Think
模式。
虽然功能强大,但使用门槛较高:仅限于 Gemini Ultra 用户。
Gemini Ultra 是谷歌在今年 I/O 大会上推出的“高端版”订阅,月费为 249.99 美元(约合 1800 元),与 ChatGPT Pro、Claude Max 和 SuperGrok Heavy 竞争。
虽然价格不菲,但确实提供了全面的功能:最强的模型、最丰富的功能,包括 Project Mariner、YouTube 会员和 30 TB 的谷歌云盘。

要启用 Deep Think
模式,用户需首先将模型切换至 Gemini 2.5 Pro
,然后在输入框下方选择“Deep Think”。
每天有固定的使用限制,但支持更复杂和更长的推理结果。
值得注意的是,Ultra 用户所使用的 Deep Think
是 IMO 金牌模型的“变体”,根据官方说法,它的速度更快,更适合日常任务。
IMO 金牌模型仅向部分数学家开放体验。
这就是它的样子,看看这图标就能感受到它的“霸气”。

02|“平行思考”,Deep Think 的核心优势
Deep Think
的核心优势在于平行思考(Parallel Thinking)。
传统的大模型通常采用线性推理,一条路走到黑;而 Deep Think
的思维方式则是:
- 同时开启多个思路,探索不同的解法;
- 相互交叉验证,排除错误并结合最佳解;
- 延长“思考时间”,用更多的计算能力换取更稳定的最终答案。
谷歌官方将其比喻为人类在解决问题时,通常会先构思多个方案、草拟草图、推导计算,最终选择最佳路径。

这种机制在数学、算法设计、科学研究及复杂代码场景中展现出极大的优势。
最明显的例证便是今年的 IMO 比赛。
- 6 道题目中完美解答了 5 道;
- 在官方答卷中完成了 4.5 小时;
- 以 35 分的成绩成功摘金,成为首个获得 IMO 官方认可的 AI 金牌得主(补充:OpenAI 的金牌并未经过 IMO 官方认证)。
谷歌官方特别强调,Deep Think
在解题过程中始终使用自然语言,不会在中途调用代码或使用外部工具。
连 IMO 主席都称赞它的解题过程“清晰、精确”。
03|全面提升,从数学到编程
Deep Think
不仅擅长解答奥数题,还对高难度复杂任务驾轻就熟。
在相同创作任务中,谷歌三款模型的结果差异显著。
Gemini 2.5 Flash
:像是小学生的作业,虽然可用,但简单得有些“寒碜”;Gemini 2.5 Pro
:开始具备一定的设计感,地形和细节有所丰富;Gemini 2.5 Deep Think
:直接化身为“艺术家”,细节丰富,场景生动立体。

从基准测试结果来看,Deep Think
的表现可以用“碾压”来形容。
在不启用外部工具的情况下,它在 HLE(人类最后一考)获得了 34.8% 的最高分,超出 OpenAI o3
和“跑分大王”Grok 4
近 10%。
在代码和数学表现上也同样优秀,AIME 2025 的得分高达 99.2%,几乎满分;而 IMO 2025 则展现出彻底的“降维打击”,将其他模型远远甩在身后。

04|Deep Think 的实际应用
谷歌官方对 Deep Think
的定位非常明确:它并非用于闲聊,而是专注于硬核任务。
官方列出了一些典型的应用场景。
1. 迭代设计与创意开发
如果你需要进行一些复杂、分步迭代的创意工作,如网页设计、游戏场景建模、产品原型优化,Deep Think
将如同“多线程创意助手”,首先提出几种方案,然后逐步打磨到最优解。
例如,在关于“像素风宝塔花园”的案例中,三个版本从
Gemini 2.5 Flash
到Deep Think
,在细节和美感上显著提升。
2. 科研推理与数学发现
科研人员是 Deep Think
的另一类核心用户。它擅长处理复杂文献、提出假设并进行推导验证,特别是在数理逻辑和公式推导方面。
谷歌甚至表示,它有潜力帮助研究者探索数学猜想,甚至可能加速科学发现的过程。
3. 高难度算法与程序开发
对于程序员而言,Deep Think
不仅可以编写代码,更擅长分析问题、建模算法、权衡时间与空间复杂度,逐步接近最优解。在 LiveCodeBench 等极限环境中也能取得 87.6% 的高分。
结论
ChatGPT 使 AI 成为日常生活的助手。
而 Deep Think
更加专注于高难度任务和专业工作流程。
对于日常问答或轻量创作而言,Gemini Ultra 的 249.99 美元月费可能显得过于昂贵。
但对于科研、算法开发或复杂项目设计,Deep Think
可能成为值得投资的选择。
我是木易,一位专注于 AI 领域的技术产品经理,拥有国内 Top2 本科和美国 Top10 CS 硕士学位。
我相信 AI 是普通人的“外挂”,致力于分享 AI 各方面的知识。这里有最新的 AI 科普、工具评测、效率秘籍和行业洞察。
欢迎关注“AI 信息 Gap”,让 AI 为你的未来加速。