共计 3608 个字符,预计需要花费 10 分钟才能阅读完成。
7 月 23 日,Qwen3-Coder 正式推出,这款模型是阿里巴巴迄今为止最强大的代码模型。Qwen3-Coder 提供多种版本,其中包括 Qwen3-Coder-480B-A35B-Instruct。这一模型的参数总量达到 480B,激活参数为 35B,采用 MoE 结构,原生支持 256K token 的上下文,并可通过 YaRN 扩展至 1M token,展现出卓越的代码生成和智能体能力。Qwen3-Coder-480B-A35B-Instruct 在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 等方面达到了开源模型的顶尖效果,性能可与 Claude Sonnet4 相媲美。那么,它的表现究竟如何呢?


今天早上,我刚刚起床,便发现朋友圈里已经被 Qwen 的消息刷屏。
没有人预计到,就在这个平常的周三早晨,千问团队在前一天刚发布了 Qwen3-235B 的小版本更新后,竟然 直接开源了 Qwen 系列中参数最多的模型 Qwen3-Coder-480B-A35B,其能力甚至达到与 Claude Sonnet 4 不相上下。

值得注意的是,此前 Qwen 系列的最大模型分别为 Qwen1.5-110B、Qwen2.5-72B 和 Qwen3-235B-A22B。而上一次开源的编程模型则是 Qwen2.5-Coder-32B。
这次的 Qwen3-Coder 不仅参数大幅提升,能力也显著增强,并且依旧保持开源,实在令人惊讶。
不过仔细推敲,这一切似乎又有其合理性。接下来,我将深入分析阿里为何选择开源如此强大的编程模型。
在此之前,我们先进入实测环节。
真实体验:实战评测 Qwen3-Coder
虽然跑分令人印象深刻,但实际体验才是关键。目前已有多个平台迅速上线 Qwen3-Coder 模型,测试变得非常方便。
场景一:SVG 图像生成
我们先从一个简单的案例开始。之前有位国外博主 Simon Willison 喜欢让大模型“生成骑自行车的鹈鹕的 SVG”来测试模型的能力。为了避免模型针对这个特定案例进行训练,我们换一个提示:
生成一个皮卡丘打篮球的 SVG
在 QwenChat 网页版的预览模式下进行生成:

对比一下 K2 的生成结果:

从结果来看,两个模型都能识别皮卡丘的特征,但 Qwen3-Coder 对身体结构的理解更为精准,并且成功描绘了场地和篮筐;而 K2 的“打”动作则在身体逻辑上显得不够合理。
场景二:3D 动态网页演示
接下来,我们设计一个较为复杂的动态页面。提示如下:
使用 Three.js 创建一个逼真的三维地球仪演示。核心要求:
地球模型: 使用一个球体作为基础。应用高分辨率的真实地球纹理,包括白天地貌图和夜晚城市灯光图,并实现昼夜平滑过渡。大气与云层: 添加一个独立、半透明的云层,并使其缓慢转动。创建环绕地球的真实大气辉光效果。光照: 使用平行光模拟太阳,在地球上投射出动态的阴影,形成昼夜效果。交互: 允许用户通过鼠标自由旋转和缩放地球,支持重置视角,支持调整转动速度。地球本身需围绕轴心自转。技术规范: 构建一个完整单页网页。使用 three.js 库。代码结构需清晰、模块化。
在 QwenChat 的预览模式下获得的结果:

我进行了一次测试,Qwen 一次性成功,完美满足所有要求。
QwenChat 还支持直接部署生成的网页,我把链接分享出来,大家可以查看效果:
Qwen Chat
场景三:配合 Code Agent 使用
除了在 QwenChat 中进行交互式代码生成,Qwen3-Coder 与 Code Agent 的搭配使用才是最佳组合。
你可以在任何支持自定义模型的场景中填写 Qwen API,官方推荐的三种使用方式包括:
- 基于 Gemini CLI 分支进行 Qwen Code 的构建

- 使用 Claude Code,并自定义使用 Qwen3-Coder 模型
- 使用 Cline,配置模型 API
我习惯使用 Claude Code,接下来看看 Qwen 的表现,具体配置步骤如下:
第一步,安装 Claude Code:npm install -g @anthropic-ai/claude-code
第二步,前往阿里云百炼平台申请 API 密钥:https://bailian.console.aliyun.com/
第三步,设置环境变量:
export ANTHROPIC_BASE_URL=https://dashscope.aliyuncs.com/api/v2/apps/claude-code-proxy
export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey
在项目文件夹中输入 claude,确保环境变量中的 API URL 设置成功后即可开始使用:

我测试了一个之前的个人项目,Claude Code 与 Qwen3 Coder 连续稳定运行了约 11 分钟,从头开始写出了超过 1000 行代码。

实测得知,Qwen3-Coder 在 Claude Code 中的表现相当稳定,没有遇到工具调用失败的问题,成功生成了我所需的项目结构和 API 端点:

这真是太棒了,再也不用为 Claude 的账号而烦恼了。
通过以上测评,我的体验是:Qwen3-Coder 完全达到了顶级编程模型的水平,尤其在智能工具的使用能力上表现出色,可以与编程工具结合,提高日常工作的效率。
超越代码:Qwen3-Coder 的核心价值
回到开篇的问题:为什么阿里会选择在“编程”领域投入如此多资源,开源 Qwen 系列中最大的模型呢?
以下是我的一些观察和个人见解,供大家参考。
第一,编程是训练模型能力的理想场景
当大模型的预训练遇到数据瓶颈后,其能力提升逐渐转向以强化学习为主的后训练阶段。
因此,许多模型团队开始在“数学”和“编程”能力上发力。原因很简单,数学和编程都属于封闭场景,具有清晰的对错边界和反馈机制,是理想的强化学习环境。
第二,编程能力提升与智能体能力提升密切相关
训练模型编写代码,实质上是在培养其理解复杂逻辑、执行任务规划、调用工具以及根据反馈进行自我调整的能力。
这套能力正是构建智能体(Agent)的核心所在。可以说,Qwen3 Coder 是一款“披着编程外衣的智能体模型”,可以作为通用模型或通用智能体的基础模型使用。
第三,编程是少数已验证的落地领域
大模型火热了数年,但真正能落地的领域却不多,而编程恰好是走得最远的一个。
从 Cursor、Windsurf 到 Claude Code、Gemini CLI,随着模型编程能力的增强,AI 编程工具也迎来了爆炸式增长,成为大模型行业为数不多的已验证商业模式领域。
第四,开源模型让更多开发者掌握核心数据
虽然商业闭源模型具备诸多优势,但不论是 Gemini CLI 还是 Claude Code,其实都难以避免使用成本和数据安全的双重压力:
- 各种 AI 会员订阅费用高达每月 $20 甚至 $200,API 调用费用更是无上限,长期使用将带来可观的持续开销。
- 对于国内企业和开发者而言,将核心项目上传至第三方云服务,总是存在安全隐患。
Qwen3 Coder 的推出,意味着可以在一台不足十万元的顶配 Mac Studio 上本地运行性能卓越的编程模型。
更重要的是,Qwen 不仅开源了模型,还兼容多种智能工具和使用方式,这显示了 Qwen 团队在思考如何让模型真正落地,融入我们的日常开发工作流,而非只能在 Playground 中对话的玩物。
可以说,Qwen3-Coder 对于技术团队而言,极具吸引力。
总结:编程是每个人的超能力
总结而言,得益于 Qwen3 Coder 的庞大体量,其编程能力表现也超出了预期,尤其在 Agentic 任务的规划和执行能力几乎可与顶级闭源模型相提并论,对于复杂逻辑的理解和代码生成的质量都极为出色。
开源和本地化部署带来的高性价比和数据安全,使 Qwen3 Coder 成为替代 GPT、Claude、Gemini 的最佳选择,真正成为提升生产力的利器。
十年前我曾读到一句话:“编程是最容易习得的超能力”,这句话一直激励着我学习编程。
如今,借助 Qwen3 Coder 这样的模型,编程的门槛已被大幅降低,不再需要特别的学习,人人都可以使用。这极大地降低了编程的壁垒,让更多有创意但技术稍弱的人能够实现自己的想法,同时也让有经验的程序员能够从繁琐的代码和调试中解脱,专注于更具创造性的系统设计和架构工作。
编程领域迎来了真正的生产力革命,期待 Qwen 团队继续推出更强大的模型,也期待大家利用 Qwen3 Coder 打造属于自己的应用和业务!