共计 1255 个字符,预计需要花费 4 分钟才能阅读完成。
IT之家于9月24日发布消息,阿里云在推出Qwen3-2507系列后,今天正式发布了Qwen3-Max,这是通义团队迄今为止最为庞大和强大的模型。
Qwen3-Max-Instruct的正式版在智能体和代码能力方面实现了显著的提升。在各类基准测试中,包括知识、推理、编程、指令遵循、人类偏好对齐、智能体任务及多语言理解等领域,该模型的表现均处于行业领先水平。
通义团队指出,目前仍在训练的Qwen3-Max-Thinking展现了极大的潜力,预计不久将向公众发布。该“思考”版本在结合工具使用的情况下,在AIME 25、HMMT等高难度推理测试中取得了100%的准确率。
IT之家提供了官方链接:
-
QwenChat:chat.qwen.ai
-
阿里云百炼:
https://help.aliyun.com/zh/model-studio/models#qwen-max-cn-bj
根据阿里的介绍,Qwen3-Max模型的参数总量超过1T,预训练使用了36T的tokens。该模型沿用Qwen3系列的设计架构,采用了global-batch load balancing loss。
-
训练稳定性:得益于Qwen3的MoE模型设计,使得Qwen3-Max的预训练loss保持稳定且平滑。训练过程连续,无任何loss尖刺,且未采用训练回退或数据分布调整策略。
-
训练高效性:在PAI-FlashMoE的多级流水并行策略优化下,Qwen3-Max-Base的训练效率显著提高,其MFU相比Qwen2.5-Max-Base提升了30%。在长序列训练场景中,ChunkFlow策略的采用使吞吐量提升了3倍,可支持Qwen3-Max进行1M长上下文的训练。同时,通过SanityCheck、EasyCheckpoint及调度链路优化等多种手段,Qwen3-Max在超大规模集群上因硬件故障造成的时间损失减少至Qwen2.5-Max的五分之一。
目前,Qwen3-Max-Instruct的预览版已经在LMArena文本排行榜上名列全球前三。正式版则在能力上更进一步,尤其在代码生成与智能体表现方面尤为突出。
在针对现实编程挑战的基准测试SWE-Bench Verified中,Qwen3-Max-Instruct获得了69.6分的优异成绩,稳居全球顶尖模型之列。
并且,在评估智能体工具调用能力的严苛基准Tau2-Bench中,Qwen3-Max-Instruct的表现亮眼,得分达到74.8,超越了Claude Opus 4和DeepSeek-V3.1。
Qwen3-Max的推理增强版本——Qwen3-Max-Thinking,通过集成代码解释器及运用并行测试技术,展现出前所未有的推理能力。在极具挑战性的数学推理基准测试AIME 25和HMMT中,均取得满分。