国产平替能否逆袭？Claude的禁令下我们该如何选择！

没有评论

共计 2609 个字符，预计需要花费 7 分钟才能阅读完成。

机器之心报道

作者：冷猫、杜伟

最近，全球范围内的人工智能代码生成竞争进入了一个新的阶段。

在编程行业，曾经被誉为领军者的 Anthropic 正逐渐失去其往日的优势，地位似乎在动摇。

这一变化部分源于 OpenAI 的 GPT-5 系列模型强势崛起，尤其是在与 Claude Code 的对比中展现出强大的竞争力，AI 大师 Karpathy 也开始积极推荐 GPT-5 Pro 的卓越代码生成能力。

另一方面，Anthropic 自身的一系列奇怪举动也不容忽视，他们不仅承认旗下模型（如 Claude Opus 4.1 和 Opus 4）的智力下降，还在本周宣布对包括中国在内的部分地区实施 AI 产品和服务的使用限制。

正值此关键时刻，多家国内大模型公司开始对 Anthropic 发起了直接挑战。月之暗面推出了 Kimi-K2-0905 版本，阿里则发布了参数超过万亿的 Qwen3-Max-Preview。

前者是 Kimi-K2 系列的最新迭代，增加了上下文长度至 256k，并针对前端开发等实际编程任务进行了优化，使得长代码生成的准确性、稳定性及逻辑一致性均有显著提升。后者是阿里公司迄今为止最大的模型，显著增强了在通用知识、数学推理和编程等多方面的表现。

我们可以看到，国内大模型厂商目前正集中精力在代码生成任务上。Kimi-K2-0905 强调了工具调用的能力，并增强了与 Agent 框架（例如 Roo Code）的协作性。

在使用该模型进行外部工具调用时，格式的准确率已达 100%，无需人工干预修正。此外，它还与 Anthropic API 完全兼容，便于接入和迁移。通过支持 WebSearch Tool，可以实时检索信息，提高任务的效果。

随着 0905 版本的推出，Kimi-K2 系列模型在 Hugging Face 上的下载量在过去 30 天中已经超过了 39 万。

有关最新的 Kimi-K2-0905，有人表示：“终于可以摆脱处理复杂长任务带来的挫折感了。”

随着国产大型模型在代码生成方面不断取得进展，全球竞争格局或许会迎来变革。

凭借双重优势，国产大型模型更具竞争力

作为 Kimi K2 系列的最新版本，Kimi-K2-0905 正在向曾经的领军者 Claude 的优势领域发起挑战，这与其他国产大型模型（例如 Qwen3-Max-Preview）不谋而合，意在提升智能编程的表现。

从技术层面看，Kimi-K2-0905 采用了当下流行的 MoE 架构，其参数规模达到万亿级别，而在推理过程中，实际激活的参数数量为320亿。

深度评测：Kimi-K2-0905在编程游戏中的表现

参数概览

通过与 Claude Sonnet 4 在 SWE-bench Verified 等真实编程基准测试的比较，我们发现 Kimi-K2-0905 在某些特定场景下（如多语言环境及终端交互方面）表现甚至优于其竞争对手。

那么它在实际应用中的表现如何呢？我们决定尝试一下经典小游戏的开发。

任务指令简单明了：「创建一个类似于微信打飞机的网页小游戏，要求既美观又富有趣味，功能齐全。」

Kimi-K2-0905生成的游戏代码（部分截图）

在网页端呈现的效果令人赞叹，背景展示了无垠的星空，快速移动的拖影和偶尔出现的回血道具，敌人爆炸时的不同颜色效果也非常引人注目。如果玩家表现出色，还能获得连击加分的奖励。

我们尝试了游戏一段时间，发现困难模式的挑战确实相当不易。

著名博主「karminski – 牙医」在测试中表示，Kimi-K2-0905的前端技术有了显著进步，空间理解和信息召回能力也得到了增强。

在进行「鞭炮连锁爆炸测试」时，Kimi-K2-0905表现相当出色，成功生成了超过一千行的代码。

原贴地址：https://x.com/karminski3/status/1963834619276709933?s=46

Kimi-K2-0905 在 API 定价方面展现了强烈的竞争力。

根据我们的了解，Kimi 开放平台上的 kimi-k2-0905-preview 模型 API，维持了与前一代相同的定价结构，具体计费为：当缓存未命中时，每百万输入 tokens 收取 4 元；若缓存命中，每百万输入 tokens 收取 1 元，而每百万输出 tokens 则为 16 元。有关详细定价策略，请参见下方图示：