共计 2071 个字符,预计需要花费 6 分钟才能阅读完成。
https://blog.google/products/gemini/gemini-2-5-deep-think/

谷歌最新推出的 Gemini 2.5 Deep Think 终于与大家见面了,这款产品是基于谷歌强大的 Gemini 2.5 模型进行升级的 Deep Think 版本,该版本在 2025 国际数学奥林匹克竞赛(2025 IMO)中达成了“金牌标准”。

需要注意的是,当前上线的版本并非在 2025 IMO 获得金牌的模型,而是一个新的迭代版本。尽管此版本在推理复杂数学问题时需耗费数小时,但它在日常使用中更为快速和便捷,同时在内部评估中也能达到 2025 IMO 标准的 铜牌水平 。换句话说,这个 新版本虽然性能有所降低,但在速度和适用性上却有所提升。该版本现已向 Google AI Ultra 订阅用户开放,而金牌版本则仅限于部分数学家和研究人员。
https://www.zhihu.com/video/1934899839193313830
我们可以将 Gemini 2.5 Deep Think 视为 Gemini 2.5 系列中的一款 升级推理模型。它结合了并行思维与强化学习技术,可以同时验证多种假设。此模型不仅支持文本、图像、音频与视频的输入,还支持 100 万 tokens 的上下文窗口,输出最多达到 19.2 万 tokens。

正如人们在面对复杂问题时会从多个角度进行深思熟虑,权衡不同方案并最终得出最佳答案,Deep Think 通过其并行思维技术拓展了思维的边界。此方法使得 Gemini 能够同时生成并评估多种思路,甚至能够随着时间的推移修正或融合不同的想法,以得出最优的解决方案。此外,延长推理时间或“思考时间”给 Gemini 提供了更多探索不同假设的空间,从而得出复杂问题的创新解法。而谷歌新研发的强化学习技术则鼓励模型利用这些扩展的推理路径,使 Deep Think 在时间推移中不断提升,成为更为出色和直观的问题解决者。
Deep Think 能够帮助人们应对需要创造性、战略性规划和逐步改进的挑战。
例如,在迭代开发与设计任务 中,Deep Think 展现出优越的表现。在为一个超现实宝塔的复杂动画编写 HTML 代码时,使用快速的 2.5 Flash 将获得简洁的结果,而标准的 2.5 Pro 则会给出更为详细和复杂的响应。但若使用 Deep Think,Gemini 能够通过多线程并行思维推演多种可能性,最终生成精细度与复杂性显著提升的输出结果。

Deep Think 同样适合于 科学与数学研究:由于其能够处理高度复杂的问题,Deep Think 为研究人员提供了强大的工具,帮助构建和探索数学猜想,或梳理复杂的科学文献,有望加速发现的进程。
此外,Deep Think 在 算法开发与编程 方面也显示出其卓越能力:尤其是在处理需要问题建模、权衡复杂性与时效性的高难度编程问题时,表现尤为突出。
Deep Think 在编程、科学、知识与推理能力的挑战性基准测试中也取得了不俗的成绩。例如,在没有任何工具的情况下,Gemini 2.5 Deep Think 在 LiveCodeBench V6(用于评估编程竞赛表现)和 Humanity’s Last Exam(涵盖科学与数学等领域的权威基准)中均达到了顶尖水准,超越了 OpenAI 的 o3 和 xAI 的 Grok 4。

那么 Gemini 2.5 Deep Think 的实际效果如何呢?虽然我只有 Gemini Pro 会员而没有 Ultra 会员,无法直接进行测试,但网上有用户测试了一个经典案例:“生成一只骑自行车的鹈鹕的 SVG”。Gemini 2.5 Deep Think 的生成结果如下:

而此前也有人使用类似的测试了即将发布的 GPT-5,效果如下:

通过这个例子来看,Gemini 2.5 Deep Think 的表现似乎更为优异。
谷歌选择在 OpenAI 发布 GPT- 5 之前推出其最强推理模型Gemini 2.5 Deep Think,显然是为了“抵挡 OpenAI 的进攻”!
参考资料
- https://blog.google/products/gemini/gemini-2-5-deep-think/
- https://deepmind.google/discover/blog/advanced-version-of-gemini-with-deep-think-officially-achieves-gold-medal-standard-at-the-international-mathematical-olympiad/
- https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf