Deepseek V3.1 与 Qwen3:混合思考选择的背后原因解析

共计 860 个字符,预计需要花费 3 分钟才能阅读完成。

Qwen3 起初采用混合思维,但在 2507 版本中又恢复了传统的独立模型。

Deepseek 则最初由两个独立模型构成,但在 V3.1 的混合思维版本中,V3 和 R1 被合并,并替换了官方网站的 API。

之前的结论表明,混合思维的实现并非易事,那么 Deepseek 为何选择训练这样的 V3.1 版本呢?(从技术角度或是八卦均可)

Qwen 团队与开源社区有着密切的交流,恢复到 2507 版本显然是根据了明确的反馈——在许多单机部署的场景下,让用户自主选择使用哪种模型更为高效。此外,Qwen 自身还拥有闭源的 Plus 和 Max,7 月份最新的快照仍维持混合模式,底层很可能在进行某种路由处理。毕竟大厂的模型种类繁多,开源模式的回归也并不需要太多心理负担。

至于 Deepseek 的思路,目前只能进行推测,比较明确的是,Deepseek 已经瞄准了编程模型的市场。本次更新主要是针对该需求的强化,尤其是提升了 Agent 的能力,并在推理方面强调了思维链的简化,某种程度上也是为编程场景进行了优化。

实际上,若我们观察所谓的混合模型 Claude Sonnet 4,会发现 Reasoning tokens 的占比极为有限。

因此,我认为“V3.1 合并了 V3 和 R1”的说法可能并不准确,可以说是以 V3 为基础,初步增强了一些推理能力。例如,连目前常见的推理预算都未能支持,而在推理模式下反而不支持函数调用。

所以现在的最新版本是 V3.1,而非 R1.1。未来 Deepseek 可能会推出一个更为强大的推理模型,但就无需再突出推理能力,而是推出一个参数更多的型号,类似于 Claude Opus 和 Sonnet 之间的关系。

来源:知乎
原文标题: 为什么 Deepseek V3.1 和 Qwen3 在是否要做混合思考上做出了相反的选择?– 知乎
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-06发表,共计860字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!