深入探讨 Gemini 2.5 Deep Think 的评价与影响

共计 2345 个字符,预计需要花费 6 分钟才能阅读完成。

https://blog.google/products/gemini/gemini-2-5-deep-think/

好消息,谷歌的最新模型 Gemini 2.5 Deep Think 终于正式推出了!

不过,坏消息是此功能目前仅对 Gemini Ultra 用户开放。

没错,它就是那个在国际数学奥林匹克(IMO)中斩获金牌的 AI 模型。

在全球范围内,它用 4.5 小时解决了 6 道题目中的 5 道,以 35 分的成绩成功摘金。

从去年的银牌到今年的金牌,Gemini 的进步显而易见。

如今,这位“数学天才”正式加入到你的 Gemini 应用中。


01|Ultra 用户的独特新功能

从今天起,Gemini 应用中正式推出 Deep Think 模式。

虽然功能强大,但使用门槛较高:仅限于 Gemini Ultra 用户。

Gemini Ultra 是谷歌在今年 I/O 大会上推出的“高端版”订阅,月费为 249.99 美元(约合 1800 元),与 ChatGPT Pro、Claude Max 和 SuperGrok Heavy 竞争。

虽然价格不菲,但确实提供了全面的功能:最强的模型、最丰富的功能,包括 Project Mariner、YouTube 会员和 30 TB 的谷歌云盘。

要启用 Deep Think 模式,用户需首先将模型切换至 Gemini 2.5 Pro,然后在输入框下方选择“Deep Think”。

每天有固定的使用限制,但支持更复杂和更长的推理结果。

值得注意的是,Ultra 用户所使用的 Deep Think 是 IMO 金牌模型的“变体”,根据官方说法,它的速度更快,更适合日常任务。

IMO 金牌模型仅向部分数学家开放体验。

这就是它的样子,看看这图标就能感受到它的“霸气”。


02|“平行思考”,Deep Think 的核心优势

Deep Think 的核心优势在于平行思考(Parallel Thinking)。

传统的大模型通常采用线性推理,一条路走到黑;而 Deep Think 的思维方式则是:

  1. 同时开启多个思路,探索不同的解法;
  2. 相互交叉验证,排除错误并结合最佳解;
  3. 延长“思考时间”,用更多的计算能力换取更稳定的最终答案。

谷歌官方将其比喻为人类在解决问题时,通常会先构思多个方案、草拟草图、推导计算,最终选择最佳路径。

这种机制在数学、算法设计、科学研究及复杂代码场景中展现出极大的优势。

最明显的例证便是今年的 IMO 比赛。

  • 6 道题目中完美解答了 5 道;
  • 在官方答卷中完成了 4.5 小时;
  • 以 35 分的成绩成功摘金,成为首个获得 IMO 官方认可的 AI 金牌得主(补充:OpenAI 的金牌并未经过 IMO 官方认证)。

谷歌官方特别强调,Deep Think 在解题过程中始终使用自然语言,不会在中途调用代码或使用外部工具。

连 IMO 主席都称赞它的解题过程“清晰、精确”。


03|全面提升,从数学到编程

Deep Think 不仅擅长解答奥数题,还对高难度复杂任务驾轻就熟。

在相同创作任务中,谷歌三款模型的结果差异显著。

  • Gemini 2.5 Flash:像是小学生的作业,虽然可用,但简单得有些“寒碜”;
  • Gemini 2.5 Pro:开始具备一定的设计感,地形和细节有所丰富;
  • Gemini 2.5 Deep Think:直接化身为“艺术家”,细节丰富,场景生动立体。

从基准测试结果来看,Deep Think 的表现可以用“碾压”来形容。

在不启用外部工具的情况下,它在 HLE(人类最后一考)获得了 34.8% 的最高分,超出 OpenAI o3 和“跑分大王”Grok 4 近 10%。

在代码和数学表现上也同样优秀,AIME 2025 的得分高达 99.2%,几乎满分;而 IMO 2025 则展现出彻底的“降维打击”,将其他模型远远甩在身后。


04|Deep Think 的实际应用

谷歌官方对 Deep Think 的定位非常明确:它并非用于闲聊,而是专注于硬核任务。

官方列出了一些典型的应用场景。

1. 迭代设计与创意开发

如果你需要进行一些复杂、分步迭代的创意工作,如网页设计、游戏场景建模、产品原型优化,Deep Think 将如同“多线程创意助手”,首先提出几种方案,然后逐步打磨到最优解。

例如,在关于“像素风宝塔花园”的案例中,三个版本从 Gemini 2.5 FlashDeep Think,在细节和美感上显著提升。

2. 科研推理与数学发现

科研人员是 Deep Think 的另一类核心用户。它擅长处理复杂文献、提出假设并进行推导验证,特别是在数理逻辑和公式推导方面。

谷歌甚至表示,它有潜力帮助研究者探索数学猜想,甚至可能加速科学发现的过程。

3. 高难度算法与程序开发

对于程序员而言,Deep Think 不仅可以编写代码,更擅长分析问题、建模算法、权衡时间与空间复杂度,逐步接近最优解。在 LiveCodeBench 等极限环境中也能取得 87.6% 的高分。


结论

ChatGPT 使 AI 成为日常生活的助手。

Deep Think 更加专注于高难度任务和专业工作流程。

对于日常问答或轻量创作而言,Gemini Ultra 的 249.99 美元月费可能显得过于昂贵。

但对于科研、算法开发或复杂项目设计,Deep Think 可能成为值得投资的选择。


我是木易,一位专注于 AI 领域的技术产品经理,拥有国内 Top2 本科和美国 Top10 CS 硕士学位。
我相信 AI 是普通人的“外挂”,致力于分享 AI 各方面的知识。这里有最新的 AI 科普、工具评测、效率秘籍和行业洞察。
欢迎关注“AI 信息 Gap”,让 AI 为你的未来加速。


推荐内容

来源:知乎
原文标题: 如何评价 Gemini 2.5 Deep Think?– 知乎
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-11发表,共计2345字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!