探索月之暗面开源Kimi K2 Thinking模型的独特亮点！

没有评论

共计 3076 个字符，预计需要花费 8 分钟才能阅读完成。

Kimi K2 Thinking 模型正式开源，令人瞩目

最近，国内的开源大模型再次让我感到惊艳！不久前，MiniMax M2的开源使得我国的大模型在开源排行榜中名列前茅。而在美国，Kimi团队几日前也发布了第二代的Kimi K2 Thinking模型，并且已经开放源代码。

根据Artificial Analysis网站的数据，在²-Bench Telecom智能体工具基准测试中，Kimi K2模型的得分为73%，仅次于GPT-5和Claude等顶尖模型。

如果想快速体验，可以访问Kimi的官方网站，开启思考模式，即可体验Kimi K2 Thinking模型。

从整体架构来看，Kimi K2与R1模型有相似之处：

两者的输入流程大致相同：tokenized text → token embedding → 堆叠的 Transformer 块 → 最终的 RMSNorm → 线性输出层。
二者均采用了 RoPE（旋转位置编码）。
都标示了：支持上下文长度为128k（Supported context length of 128k tokens）。
Embedding 维度均为7168，表明词向量的规模是一致的。

但在具体细节上，二者存在一些差异：

Kimi模型的总参数量更为庞大，但单层的注意力机制并没有过于“宽松”，可能是为了将更多资源分配给MoE专家数量。
Kimi的整体模型规模更大（1T对比671B），但在单次推理时激活的参数却更少（32B对比37B）。这正是MoE的优势：虽然模型参数池可以扩展，但每次使用的并不一定多。
Kimi K2的总模型大小为1T，但每次推理仅使用32B，并且专家数量更多、词汇量更大、稠密块更少。

当前，许多国内最新的大模型更加专注于Agent的能力。Kimi K2 Thinking模型如同我之前提到的MiniMax M2一样，融入了“模型即Agent”的理念。它能够原生调用多种不同工具，来完成各类任务。

在多项基准测试中，如人类最终考试（Humanity’s Last Exam）、自主网络浏览能力（BrowseComp）以及复杂信息收集推理（SEAL-0）等，Kimi K2均展现了SOTA水平，并在Agentic搜索、编程、写作及综合推理等方面取得了显著进展。

Kimi K2 Thinking模型具备无需人工干预的自主能力，能够稳定进行多达300轮的工具调用与持续多轮思考，进而有效应对复杂的用户需求。该模型通过同步扩展思考Token数量与工具调用次数，显著提高了智能体的推理和任务执行能力。

在“人类最终考试”中，Kimi K2 Thinking的表现超过了GPT、Claude等模型，取得了优异的成绩。这项考试是一个全面的学术评估，涵盖100多个专业领域，并要求在封闭环境中使用搜索、Python和网络浏览等工具。模型以44.9%的分数创造了先进纪录，展示了其卓越的推理和解决问题的能力。

例如，Kimi K2 Thinking通过5轮搜索和推理，结合每轮获得的新信息，逐步深入，最终得出了答案：

复杂的搜索场景是评测大模型能力的重要指标之一。在OpenAI的BrowseComp基准测试中，该测试主要考察AI代理在信息过载环境下进行网络浏览时的持久性与创造性（类似于人类研究员的“刨根问底”行为），Kimi K2 Thinking的表现令人惊叹。它以60.2%的得分大幅超越了人类平均水平的29.2%，成为新的顶尖模型，突出其在复杂搜索任务中的深度探索能力。

例如，在以下案例中，Kimi K2 Thinking经过两轮搜索与思考，首先根据已知的股票回购信息找到了这家制造快速的公司，随后又在美国证券交易委员会（SEC）官网上找到了相关的股票回购公告，得出了准确的答案：

编程能力也是衡量大模型实力的重要场景之一。Kimi K2 Thinking在编码能力上有了显著进步，在多项软件工程基准测试中，包括多语言、验证集和终端操作，表现优异。该模型在前端任务中，如HTML和React开发，能够迅速将创意转化为响应式产品。在自主编码场景下，它能够智能调用工具，结合软件代理，处理复杂的多步骤开发流程，例如现在可以协助实现功能完备的文字编辑器。