阿里通义千问Qwen3-Max闪耀登场,全球性能排名前三,多项测试成绩优异!

共计 1044 个字符,预计需要花费 3 分钟才能阅读完成。

【CNMO科技新闻】在杭州举行的2025云栖大会上,阿里巴巴集团旗下的通义千问隆重推出了其最新旗舰大模型Qwen3-Max。这一模型在多项重要基准测试中展现了出色的表现,其综合能力超越了GPT-5、Claude Opus 4等国际领先模型,标志着中国在大模型技术领域取得了显著的进展,成功跻身全球大模型的前三甲。

作为通义千问系列中规模最大、性能最强的基础模型,Qwen3-Max的预训练数据量高达36T tokens,参数总数突破万亿,具备强大的编程能力和工具调用能力。其在SWE-Bench Verified测试中,以69.6分的优异成绩位列全球前列;而在专注于Agent工具调用的Tau2-Bench测试中,Qwen3-Max更是以74.8分的成绩,超越了Claude Opus4和DeepSeek-V3.1,取得了突破性的进展。

Qwen3-Max-Instrurct测评分数

Qwen3-Max的推理增强版Qwen3-Max-Thinking-Heavy同样展现出卓越的性能。借助工具调用与并行推理技术,该版本的推理能力达到了新的高峰。在数学推理方面,Qwen3-Max在AIME 25和HMMT测试中均取得了满分100的辉煌成绩,创造了国内的首次记录。这一优异表现的原因在于,该模型能灵活运用工具解决数学题,并能够编写代码进行求解。同时,测试过程中增加的计算资源也提升了模型的整体表现。

Qwen3-Max-Thinking-Heavy 测评分数

根据大模型预训练原理Scaling Law(规模化法则),不断扩大数据和参数的规模被认为是实现通用人工智能的一个可能途径。虽然自然数据的数量有限,部分研究者认为预训练的Scaling Law可能接近上限,但Qwen3-Max的性能突破证明,进一步扩大数据和模型参数,依旧能够创造出更强大的模型,增强了人们的信心。目前,通义千问系列模型已实现从0.5B到超万亿的全面覆盖,涵盖了三百多种大模型,能够满足多样化的场景需求。

现在,用户可以在通义千问的QwenChat平台上免费体验Qwen3-Max,也可以通过阿里云百炼平台调用其API服务。

来源:今日头条
原文标题:阿里通义千问Qwen3-Max亮相 性能跻身全球前三 多项测试表现卓越 – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-10发表,共计1044字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!