共计 1044 个字符,预计需要花费 3 分钟才能阅读完成。
【CNMO科技新闻】在杭州举行的2025云栖大会上,阿里巴巴集团旗下的通义千问隆重推出了其最新旗舰大模型Qwen3-Max。这一模型在多项重要基准测试中展现了出色的表现,其综合能力超越了GPT-5、Claude Opus 4等国际领先模型,标志着中国在大模型技术领域取得了显著的进展,成功跻身全球大模型的前三甲。
作为通义千问系列中规模最大、性能最强的基础模型,Qwen3-Max的预训练数据量高达36T tokens,参数总数突破万亿,具备强大的编程能力和工具调用能力。其在SWE-Bench Verified测试中,以69.6分的优异成绩位列全球前列;而在专注于Agent工具调用的Tau2-Bench测试中,Qwen3-Max更是以74.8分的成绩,超越了Claude Opus4和DeepSeek-V3.1,取得了突破性的进展。

Qwen3-Max-Instrurct测评分数
Qwen3-Max的推理增强版Qwen3-Max-Thinking-Heavy同样展现出卓越的性能。借助工具调用与并行推理技术,该版本的推理能力达到了新的高峰。在数学推理方面,Qwen3-Max在AIME 25和HMMT测试中均取得了满分100的辉煌成绩,创造了国内的首次记录。这一优异表现的原因在于,该模型能灵活运用工具解决数学题,并能够编写代码进行求解。同时,测试过程中增加的计算资源也提升了模型的整体表现。

Qwen3-Max-Thinking-Heavy 测评分数
根据大模型预训练原理Scaling Law(规模化法则),不断扩大数据和参数的规模被认为是实现通用人工智能的一个可能途径。虽然自然数据的数量有限,部分研究者认为预训练的Scaling Law可能接近上限,但Qwen3-Max的性能突破证明,进一步扩大数据和模型参数,依旧能够创造出更强大的模型,增强了人们的信心。目前,通义千问系列模型已实现从0.5B到超万亿的全面覆盖,涵盖了三百多种大模型,能够满足多样化的场景需求。
现在,用户可以在通义千问的QwenChat平台上免费体验Qwen3-Max,也可以通过阿里云百炼平台调用其API服务。
