国内大模型为何自称领先,却在实际编码中鲜有应用?

共计 1577 个字符,预计需要花费 4 分钟才能阅读完成。

我有一个疑问:为什么国内的 AI 大模型自称技术领先,但在实际编程过程中,程序员却多数选择使用 GPT、Gemini 等国外模型,而非国内的方案?

首先,我们需要讨论 AI 编程模型的能力以及评估方法的相关问题。当前主要面临三个挑战:

1. 随着模型能力的提升,评估其性能的方式也变得愈加复杂。现阶段,大部分国内外模型在进行简单的对话互动、产品展示以及数据分析脚本编写方面表现都相当出色,这使得这些任务之间的差异不明显。然而,当涉及到复杂项目及棘手的 bug 处理时,差距便显现出来。

2. 在基准测试方面,性能评估已经出现饱和现象。例如,MMLU 测试在达到一定水平后,其升级版 MMLU-Pro 中大多数模型的得分均超过了 80,而在 AIME2025 的榜单上,有十个模型的得分超过 90 分。因此,单凭某一基准测试的分数,因其饱和性,无法有效比较出模型之间的真实差异。

3. 测评环境与实际应用场景之间的差异,尤其是在代码生成领域。模型的训练数据通常源自开源代码的问题或拉取请求,这些问题往往是局部的或片段化的,而不像真实场景中所面临的复杂性与整体性。此外,当前强化学习的训练成本较高,针对真实问题的训练复现方法尚未成熟,加之上下文和记忆管理的方案仍不完善,因此,模型在解决复杂编程问题时的能力显得相对薄弱。

在以上问题的背景下,我们可以从两个方面分析为何国产模型在实际应用中不如国外模型受到青睐。

首先,根本原因在于模型能力的差距。在评估编程能力的标准中,swe-bench verified 是针对处理真实 GitHub 问题的评估工具,这是评价模型编程能力的关键基准测试(尽管其样本仅有 500 个经过人工验证,说明评估的覆盖度确实不足)。目前得分最高的是 claude opus 4.5(80.9),接下来的排名依次是 claude-sonnet-45(77.2)、gpt-5..1(76.3)和 gemini-3-pro(76.2)。而国内模型中表现最佳的是 DeepSeek-v3.2,得分为 73.1,其余模型的排名依次是 kimi-k2 thinking(71.3)、qwen3-max(69.6)、minimax-m2(69.4)和 glm-4.6(68.0)。由此可见,国内模型与国外 75 分以上的模型之间仍存在显著差距。

再来看看综合性的测评,如 scicode(科学编程)、livecodebench(较新的竞赛编程)和 terminal-bench-hard(终端复杂问题编程)的编码指数评分,前四名均为国外模型(得分均在 55 以上),DeepSeek-v3.2(52.82)位列第四,算是开源领域的一点成绩,尚超越了 gpt-5.1-codex(高)。因此,通过这些与真实编程任务相关的测评结果,可以直观地判断各模型的能力差异。

第二个问题则是基于编程代理的技术栈及生态的差距。claude 和 codex 早期便开始构建基于自家模型的命令行编程工具,而国内的 qoder、atra 和 codebuddy 等则是在最近三个月内发布的。由于在编程场景中的经验积累、产品优化以及领域内强化学习的进展,国内模型在这些方面面临一定的后发劣势,需要持续努力追赶。

总体来看,尽管大部分模型在处理简单编程任务时表现良好,但即使是最先进的模型目前也尚未能达到应对复杂编程问题的水平。而国内模型的编程能力与国外顶尖模型之间的差距虽然仍在,但这一差距正逐步缩小。

来源:知乎
原文标题: 为什么国内的大模型号称领先,为什么在实际的 coding 过程中使用却很少? – waterwu 的回答
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2026-02-25发表,共计1577字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
评论(8 条评论)
可爱桃子 评论达人 LV.1
2026-02-24 19:10:54 回复

这数据一看,国产模型的自信可能是不少程序员心里的隐忧啊。

     未知
遥小鹿 评论达人 LV.1
2026-02-24 19:00:54 回复

看到国外的模型这么强,国产的是不是得聚焦一些特定领域来突破呢?

     未知
安悠曦 评论达人 LV.1
2026-02-24 18:50:54 回复

有点想问,国内模型的开发团队是不是对用户的反馈没有足够重视?这样很难进步吧。

     未知
子栗子 评论达人 LV.1
2026-02-24 18:40:54 回复

国产模型在实际编码中的应用少,是否是因为市场推广不足?

     未知
阿圆川 评论达人 LV.1
2026-02-24 18:30:54 回复

看到国外模型的评分高,心里有些不甘,国产模型是不是该找准方向,聚焦特定领域?

     未知
阿亦眠 评论达人 LV.1
2026-02-24 18:20:54 回复

从数据上看,国内模型与国外还有差距,希望能加大研发力度,缩小这个差距。

     未知
热爱橙子 评论达人 LV.1
2026-02-24 18:10:54 回复

评测环境跟实际应用差距大,这点我认同。希望未来能有更多真实场景的测试。

     未知
言晚风 评论达人 LV.1
2026-02-24 18:00:54 回复

看到这数据,感觉国产大模型的自信有点过了,还是得实事求是啊。

     未知
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!
8