国内大模型的领先背后为何在编程实践中鲜有应用？ – 王欣宇的深度解析

共计 1531 个字符，预计需要花费 4 分钟才能阅读完成。

我想知道一个问题：为何国内的大型模型声称处于领先地位，但在实际编程过程中，开发者却更倾向于使用 GPT、Gemini 等国外模型，而非国内模型呢？

首先，让我们探讨一下 AI 编程模型的能力及其评估问题，目前主要面临以下三个挑战：

1. 随着模型能力的提升，评估其性能的方法也变得愈发复杂。当前的大型模型能够出色地完成简单的对话互动、产品展示或数据分析脚本等任务，因此它们之间的差异并不明显；真正的差距体现在复杂项目和棘手 bug 的解决能力上。

2. 性能评估基准面临饱和问题。例如，MMLU 的分数已经达到上限，而其升级版 MMLU-Pro 中，大多数模型的得分均超过了 80 分，AIME2025 榜单上更是有 10 个模型得分超过 90 分。因此，单纯依赖某一基准的分数，因其饱和性，难以有效比较模型之间的差异。

3. 测评场景与实际应用场景之间的差异，尤其是在编程领域。模型的训练数据大多来源于开源代码的 issue 或 PR，这些问题往往是局部性的，无法全面反映真实场景的复杂性。同时，当前强化学习的训练成本较高，针对真实问题的训练复现仍未找到有效的解决方案，加之上下文和记忆管理技术尚不成熟，因此在解决现实编程问题时，模型的能力仍显不足。

基于以上问题，我们可以从两个角度分析为何国产模型在实际应用中不及国外模型普遍。

根本原因在于模型能力的差距。在编程能力评估标准中，swe-bench verified 是专门针对处理真实 GitHub issue 能力的测评，成为评估模型编程能力的重要基准（不过，其实仅有 500 个经过人工验证的样本，显示出测评基准的覆盖度依然不足）。目前得分最高的是 claude opus 4.5（80.9），紧随其后的是 claude-sonnet-45（77.2）、gpt-5.1（76.3）、gemini-3-pro（76.2），而国内模型中表现最佳的是 DeepSeek-v3.2，得分为 73.1，其它国内模型的排名依次为 kimi-k2 thinking（71.3）、qwen3-max（69.6）、minimax-m2（69.4）、glm-4.6（68.0）。由此可见，国内模型与得分 75 以上的国外模型仍存在明显差距。

再看一个综合性的编程测评，比如 scicode（科学编程）、livecodebench（新兴竞赛编程）和 terminal-bench-hard（复杂终端编程）等 coding index 测评，前四名均为国外模型（得分均在 55 以上），而 DeepSeek-v3.2（52.82）则排名第四，算是开源领域的一个亮点，超越了 gpt-5.1-codex(high)。因此，通过这些真实编程任务的测评成绩，可以直观地判断出能力差距。

第二个问题是基于编程代理的技术栈和生态的差异。claude 和 codex 较早就开始构建基于自身模型的命令行编程工具，而国内的 qoder、atra 和 codebuddy 等工具则是在最近三个月才发布，因此在编程场景的经验积累、产品优化及强化训练方面，国内模型显然存在后发劣势，需要持续追赶。

总体来看，虽然大多数模型在处理简单编程问题上没有障碍，但即使是前沿模型的能力，仍未达到应对真实场景中复杂编程问题的水平。尽管国内模型的编程能力与国外顶尖模型之间的差距仍然存在，但这一差距正在逐步缩小。

来源：知乎

原文标题：为什么国内的大模型号称领先，为什么在实际的 coding 过程中使用却很少? – 王欣宇的回答

原文链接：https://www.zhihu.com/question/1981292855533253860/answer/1986399312209528403

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

AI评估国内模型外国模型大模型编程实践

发表至： ai编程

2026-02-25

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

字节跳动AI编程工具Trae收费计划引发的思考与未来展望

OpenAI 突然将 GPT-4o 免费开放的背后原因揭晓！

OpenAI意欲收购的Windsurf核心团队却被谷歌DeepMind捷足先登！

轻松掌握Cursor入门教程，助你快速成为编码高手，创造精彩项目！

字节跳动技术副总裁首度开源与Trae合作项目，AI开发现状如何？

零基础搭建你的 AI 助手：保姆级 OpenClaw 飞书对接全攻略

Cursor跑代码不再难！教你轻松掌握技巧，迅速提升编程效率和项目完成度

人工智能编程崛起，程序员的未来会走向何方？

从 Trae AI 走出三个月：新生活的精彩篇章

深入探讨：codewave大模型的性能评估