共计 2609 个字符,预计需要花费 7 分钟才能阅读完成。
机器之心报道
作者:冷猫、杜伟
最近,全球范围内的人工智能代码生成竞争进入了一个新的阶段。
在编程行业,曾经被誉为领军者的 Anthropic 正逐渐失去其往日的优势,地位似乎在动摇。
这一变化部分源于 OpenAI 的 GPT-5 系列模型强势崛起,尤其是在与 Claude Code 的对比中展现出强大的竞争力,AI 大师 Karpathy 也开始积极推荐 GPT-5 Pro 的卓越代码生成能力。
另一方面,Anthropic 自身的一系列奇怪举动也不容忽视,他们不仅承认旗下模型(如 Claude Opus 4.1 和 Opus 4)的智力下降,还在本周宣布对包括中国在内的部分地区实施 AI 产品和服务的使用限制。

正值此关键时刻,多家国内大模型公司开始对 Anthropic 发起了直接挑战。月之暗面推出了 Kimi-K2-0905 版本,阿里则发布了参数超过万亿的 Qwen3-Max-Preview。
前者是 Kimi-K2 系列的最新迭代,增加了上下文长度至 256k,并针对前端开发等实际编程任务进行了优化,使得长代码生成的准确性、稳定性及逻辑一致性均有显著提升。后者是阿里公司迄今为止最大的模型,显著增强了在通用知识、数学推理和编程等多方面的表现。
我们可以看到,国内大模型厂商目前正集中精力在代码生成任务上。Kimi-K2-0905 强调了工具调用的能力,并增强了与 Agent 框架(例如 Roo Code)的协作性。
在使用该模型进行外部工具调用时,格式的准确率已达 100%,无需人工干预修正。此外,它还与 Anthropic API 完全兼容,便于接入和迁移。通过支持 WebSearch Tool,可以实时检索信息,提高任务的效果。
随着 0905 版本的推出,Kimi-K2 系列模型在 Hugging Face 上的下载量在过去 30 天中已经超过了 39 万。
有关最新的 Kimi-K2-0905,有人表示:“终于可以摆脱处理复杂长任务带来的挫折感了。”

随着国产大型模型在代码生成方面不断取得进展,全球竞争格局或许会迎来变革。

凭借双重优势,国产大型模型更具竞争力
作为 Kimi K2 系列的最新版本,Kimi-K2-0905 正在向曾经的领军者 Claude 的优势领域发起挑战,这与其他国产大型模型(例如 Qwen3-Max-Preview)不谋而合,意在提升智能编程的表现。
从技术层面看,Kimi-K2-0905 采用了当下流行的 MoE 架构,其参数规模达到万亿级别,而在推理过程中,实际激活的参数数量为320亿。
深度评测:Kimi-K2-0905在编程游戏中的表现

参数概览
通过与 Claude Sonnet 4 在 SWE-bench Verified 等真实编程基准测试的比较,我们发现 Kimi-K2-0905 在某些特定场景下(如多语言环境及终端交互方面)表现甚至优于其竞争对手。

那么它在实际应用中的表现如何呢?我们决定尝试一下经典小游戏的开发。
任务指令简单明了:「创建一个类似于微信打飞机的网页小游戏,要求既美观又富有趣味,功能齐全。」

Kimi-K2-0905生成的游戏代码(部分截图)
网页游戏开发的惊艳体验
在网页端呈现的效果令人赞叹,背景展示了无垠的星空,快速移动的拖影和偶尔出现的回血道具,敌人爆炸时的不同颜色效果也非常引人注目。如果玩家表现出色,还能获得连击加分的奖励。

我们尝试了游戏一段时间,发现困难模式的挑战确实相当不易。

著名博主「karminski – 牙医」在测试中表示,Kimi-K2-0905的前端技术有了显著进步,空间理解和信息召回能力也得到了增强。
在进行「鞭炮连锁爆炸测试」时,Kimi-K2-0905表现相当出色,成功生成了超过一千行的代码。

原贴地址:https://x.com/karminski3/status/1963834619276709933?s=46
Kimi-K2-0905 在 API 定价方面展现了强烈的竞争力。
根据我们的了解,Kimi 开放平台上的 kimi-k2-0905-preview 模型 API,维持了与前一代相同的定价结构,具体计费为:当缓存未命中时,每百万输入 tokens 收取 4 元;若缓存命中,每百万输入 tokens 收取 1 元,而每百万输出 tokens 则为 16 元。有关详细定价策略,请参见下方图示:

以美元计价的价格与国内市场相差无几。

与 Anthropic 的定价相比,Kimi 及其他国内编程模型无疑显得更加合理,称得上是「开源 Claude 的替代品」,同时支持与 Anthropic API 和 Claude Code 的全面兼容,帮助开发者延续过去的使用习惯。
尤其是在 Anthropic 对国内及其他地区实施限制的背景下,确保现有项目和工作流的顺利进行显得尤为重要。
总结
在人工智能编程的领域,国内的 AI 企业各有其独特的视角。大致可以分为两类:一类专注于产品与用户体验的提升;另一类则专注于基础模型的精细打磨。
国产AI编程工具的崛起与发展
以腾讯和字节跳动为例,这两家公司在其编码产品的升级上,主要聚焦于提升产品本身。例如,字节跳动推出了Trae Solo版本,而腾讯则发布了CodeBuddy IDE,这些都是力图在核心竞争力上超越Cursor的努力。
相对而言,以月之暗面为标志的新兴AI力量,选择了一条更为直接的进攻策略。他们通过技术革新与极限性能的精细打磨,力求在大模型的核心能力上与国际顶尖厂商(如Anthropic)相抗衡。
无论是在上下文窗口的不断扩展,还是针对实际编程任务及Agent工具调用的专项优化,国内开发者正在取得与国际同类产品相媲美,甚至超越的成果。
与此同时,主流的AI编程工具,例如Cursor、Windsurf、Trae和Cline等,以及第三方Agent产品如flowith和Genspark,也在积极整合国内优秀的大模型。中国的新兴AI力量已经深度融入了主流的开发与应用生态系统。
如今,国产大模型不仅在性能指标上逐渐超越国际领先者,更在实际开发体验中获得了越来越多的认可。一旦这样的“正反馈循环”形成,将有助于快速积累开发者的良好口碑,促进更繁荣的应用生态,并进一步开拓更广阔的市场空间。

