“巢燧”大模型基准测试震撼发布，深度推理大模型评测报告全面解析！

共计 2632 个字符，预计需要花费 7 分钟才能阅读完成。

在DeepSeek-R1开源发布后，众多国内企业纷纷投入到深度推理大模型的研发和上线中。“巢燧”大模型基准测试紧密关注这一领域的最新动态。最近，红星新闻与天津大学自然语言处理实验室合作，基于“燧观”大模型智能测试平台，进行了“巢燧”大模型基准综合评测的第三轮，对几款主流深度推理大模型进行了系统化的评估，涵盖了数学、多步推理和代码等三个重要维度。希望通过全面的评测，为中国的人工智能发展提供关键数据，推动AI的智能和谐发展。

此次评测所涵盖的模型包括DeepSeek-R1、Spark X1、Hunyuan-T1、GLM-Z1-Air、QwQ-32B-Preview和ERNIE-X1 Turbo（32K）六款国产深度推理大模型。由于近期一些模型进行了版本更新或API调用出现问题，因此未能涵盖所有模型，后续将继续进行全面评测。

多维度精选任务评估推理能力

本次评测专注于多步推理、数学复杂推理和代码推理三大领域，对深度推理大模型进行了全面的考核。

（1）数学复杂推理任务

该评测任务使用高考数学复杂推理数据，数据来源为2024年1月至2024年5月的高考数学预测试卷及模拟试卷，这样可以有效减少数据污染的影响。该数据集题目数量充足且内容丰富，评测所用的4100道题目覆盖了7个难度等级和8种题目类型，包括基本初等函数与导数推理、三角函数与解三角形推理、平面解析几何推理、数列推理、立体几何与空间向量推理、计数原理推理、统计与概率推理以及其他数学推理（例如逻辑、集合、不等式、复数等）。其中一些较难题目的解析超过2000字符，展现了测试模型在复杂数学推理方面的能力。

（2）多步推理任务（C2RBench）

本任务基于中文复杂推理测试基准C2RBench，旨在系统评估大模型在多步和多模态高级推理任务中的实际表现。C²RBench共设有1115道精心设计的中文任务，涵盖八个与实际推理需求紧密相关的领域子集，各子集任务均模拟真实问题。该基准采用层级难度设置，依据推理步骤数量分为三级任务，平均每个任务涉及8.44个推理步骤，显著高于现有基准的认知复杂度设定。本次评测选取了C2RBench中的两个领域子集，即逻辑多步推理和通用知识多步推理，其测试数据集的最大特点是：每个测试样本都由较长的一系列推理操作组成。根据完成任务所需的推理步数，测试样本可分为三个难度级别：Level1（3-6步推理）、Level2（7-11步推理）和Level3（12步以上推理）。

（3）程序设计代码推理任务（ProBench）

ProBench是评测大模型程序设计代码推理能力的数据集，测试题目采自Codeforces、洛谷（Luogu）和牛客网（Nowcoder）这三个主流编程竞赛平台。ProBench_v2版本收录了2025年1月1日至2025年5月13日之间的最新竞赛题目。所有题目均为该时间段内的新题，并包含中文和英文描述。此次评测采用504道标注有难度等级的题目，涵盖多种算法类型，包括基础算法、字符串处理、数学、图论、数据结构、搜索和动态规划等，并将难度等级划分为简单、中等和困难。大模型在处理简单难度的测试题时，平均需要生成12K词元，而在回答中等及困难题目时，平均需要生成22K词元，显示出该数据集在推理深度和计算负载方面的挑战性。

国内深度推理大模型整体表现显著提升

根据巢燧基准评测的综合测试评分结果，多款国内深度推理大模型，如DeepSeek-R1、讯飞星火X1、腾讯混元T1、智谱Z1等，综合分数均超过或接近60，反映出国内深度推理大模型在最近几个月取得了显著进展。

从整体得分来看，DeepSeek的表现处于领先地位，而讯飞星火X1以微弱优势超过混元T1和智谱Z1，分别位列第二、第三和第四名。国内模型之间的竞争异常激烈。

特别提示，本次评测中，DeepSeek-R1使用的是2025年5月28日发布的版本，Hunyuan-T1使用的是2025年5月21日发布的版本，Spark X1为2025年4月20日发布，GLM-Z1-Air为2025年4月15日发布，QwQ-32B-Preview为2024年11月28日发布，ERNIE-X1 Turbo（32K）为2025年4月25日发布。

通过本次测评结果，我们可以观察到以下趋势和结论：

（1）与去年11月发布的QwQ-32B-Preview相比，今年发布的大多数深度推理大模型在数学推理能力上有了显著提升，最佳结果超过70%；排名前四的模型的准确率相对接近，表明当前头部深度推理大模型在数学推理能力上处于相似水平，竞争格局异常激烈。

（2）在多步推理任务中，领先模型间的差距逐渐缩小，竞争愈发激烈，排名靠前的DeepSeek-R1、Spark X1和Hunyuan-T1的准确率接近，竞争日益白热化。细微差异可能源于对特定推理类型的优化或者推理过程中的纠错机制不同。

（3）在多步推理的细分任务——逻辑多步推理上，国内深度推理大模型展现出色的表现。模型在中低难度逻辑推理方面的处理能力较强，但随着推理难度提升，准确率有所下降，尤其是在Level3任务中下降显著，反映出推理步数增加所带来的挑战。

（4）相较于逻辑多步推理，通用知识多步推理这一细分任务依然面临明显瓶颈，整体准确率低于逻辑推理，且不同模型之间的差异较大。各深度推理大模型的准确率呈现明显的阶梯分布，前三名模型的准确率均集中在60%至71%区间，体现了头部模型的整体竞争力和技术成熟度。

（5）在程序设计代码推理方面，DeepSeek-R1显著领先于其他深度推理大模型，但所有模型的得分普遍较低，说明在程序设计代码推理任务上仍有很大的提升空间。

总结

在2025年上半年，国内深度推理大模型在多项关键任务中展现出显著进展，整体技术水平稳步提升。在多步逻辑推理任务中，整体准确率大幅提高，且领先模型之间的差距不断缩小；在高考数学复杂推理任务中，头部模型较去年实现了飞跃式提升，展现了深度推理能力的显著增强；而在程序设计代码推理这类难度更高的任务中，不同模型之间的技术层次更加明显。我们期待国内深度推理大模型在未来继续快速迭代，并在下一次评测中展现更为出色的表现。

红星新闻记者李伟铭

（下载红星新闻，报料有奖！）

来源：今日头条

原文标题：“巢燧”大模型基准测试发布国内深度推理大模型评测报告 – 今日头条

原文链接：https://toutiao.com/group/7520605767410483758/

正文完