阿里开源编程模型Qwen3-Coder:性能媲美Claude4,技术亮点与使用体验全揭晓!

共计 1941 个字符,预计需要花费 5 分钟才能阅读完成。

Qwen3-Coder:自主编程的新纪元

在7月23日,Qwen3-Coder正式亮相,这是阿里巴巴目前推出的最具代理能力的编程模型。Qwen3-Coder包括多个版本,其中Qwen3-Coder-480B-A35B-Instruct是一个总参数达到480B,激活参数为35B的MoE模型,原生支持256K token的上下文,并且可以通过YaRN扩展至1M token,展现出卓越的编程和代理能力。该模型在Agentic Coding、Agentic Browser-Use和Agentic Tool-Use方面达到了开源模型的SOTA水平,表现与Claude Sonnet4相当。那么,它的性能究竟如何呢?

简短结论:单凭一己之力重塑编程模型格局
基本信息

  • 成本:$5每百万
  • 平均行数:约200行(注释率13%)
  • 速度:约160字每秒
  • 平均耗时:46秒

    编程成绩:

*表格经过适度裁剪以突出对比关系,未展示完整排序
**使用官方推荐的温度设置0.7
***测试方法详见大语言模型-编程能力测评 25-07月榜(新增C++)
****完整榜单更新可在Github查阅
编程语言分布:

*图中,除了第一名以绿色标识外,其余与之相差0.3分以内的第二名也同样标绿。此举是考虑到测试本身的随机性,0.3分的差距可以视为同一水平。

本周是Qwen的开源周,每天发布一个新模型,今天的产品专注于各种编程应用场景的Coder版本。此前通用模型235B击败了自家的最强推理模型,因此参数更高、代码占比更大的Coder模型成绩更佳也在情理之中。虽然官方宣传称其“与Sonnet 4相媲美”,初看之下Coder的成绩确实在Sonnet 4之上,但实际上其错误率和稳定性都不及Sonnet 4。同时,Coder的错误分布较为均匀,而Sonnet 4的错误则主要集中在C++语言。Coder在多种语言上都有可能输出逻辑错误的0分代码,而Sonnet 4的0分主要集中在C++和少量Java问题上。
中位数排序显示,Coder的得分仅略高于GPT4.1 mini,低于OGA的三款模型,这意味着在实际使用中,Coder的整体体验稍逊于Sonnet 4。
接下来将进行更详细的对比分析。

优势:

  • 对于任务要求清晰、需求明确的问题,Coder的表现相当不错。例如在第2题的正则表达式解析、第4题的售票系统和第10题的三视图投影中,Coder几乎能稳定获取满分,偶尔因考虑边界场景不周而失去几个用例。

不足:

  • 推理能力:在题目中存在需要隐含推理的信息时,Coder的推理能力显得不足,无法理清问题的全貌,导致生成的代码只能部分应对测试用例。例如在第12题的函数计算器中,Coder的完成度不高。
  • 代码冗长:Coder生成的平均代码行数可达200行,即使去掉注释,依然是21个模型中排名第三。其输出的代码中出现了“以勤补拙”的情况,如在第9题的文本解析器中处理HTML特殊字符时,Coder输出了30行代码来逐一列举各种字符,而实际上提取公共字符只需3行即可解决。在第11题的拼图问题中,Coder大量采用暴力穷举,导致代码冗长且执行效率低下。
  • 突发性失忆:在因语法错误导致编译失败的场景中,有些情况尤其遗憾。例如在声明变量后不久,因产生幻觉而使用一个完全不同的变量名。
  • 中英混合:在未明确指定的情况下,Coder输出的代码注释中大约一半使用英文,另一半使用中文,表现不稳定,偶尔会完全不写注释。然而,Coder的平均注释率为13%,并不算低。
  • 代码中偶尔夹杂不可见字符NBSP,导致编译失败。如果用户的IDE未配置显示不可见字符,可能会在遇到这种情况时出现神秘错误。

赛博史官点评:
在国内无法方便使用Claude和OpenAI系列的情况下,一款具备在线编程能力的国产模型成为了迫切需求。可惜的是,无论是之前的Qwen2.5、Qwen3,还是字节的历代模型,都难以取代Claude的地位。新的Coder模型凭借其独特的优势,已经改变了现状,其高可用性和低成本使其在大部分场景中成为编程的首选。至于超越Claude,恐怕这一代模型尚难以实现,这仍需要大模型领域的专家们共同努力、齐心协力。阿里通义团队在大模型编程应用方面的长期投入终将收获成果。

目前所有评测文章将在公众号:大模型观测员上同步更新。

来源:知乎
原文标题: 阿里开源编程模型 Qwen3-Coder,性能比肩全球顶级编程模型 Claude4,技术亮点和体验如何?– 知乎
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-04发表,共计1941字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!