阿里云通义千问紧追OpenAI,继DeepSeek之后的重大突破!

共计 1637 个字符,预计需要花费 5 分钟才能阅读完成。

中国的人工智能领域不仅限于DeepSeek,还有一个新秀——通义千问。

在农历新年第一天,阿里云通义团队推出了其旗舰模型“Qwen2.5-Max”,使其成为继深度求索(DeepSeek)之后,能够与美国OpenAI的o1系列相媲美的中国大语言模型。

近期,三方基准测试平台LMArena发布了最新的大语言模型盲测榜单(“ChatBot Arena LLM”),在该榜单中,“Qwen2.5-Max”以1332分位列总榜第7,超越了深度求索的“DeepSeek-V3”及OpenAI的“o1-mini”。在数学和编程领域,该模型更是荣登榜首,而在Hard prompts方面则位列第二。

“ChatBot Arena LLM”榜单是由美国加州大学伯克利分校的天空计算实验室与LMArena联合开发的,采用用户盲测的形式,评估对话、编程、图文生成、网页开发等多维能力,最终结果基于260万票的反馈,充分反映出197个模型在真实应用中的表现,广受业内认可。

该榜单最近更新于2月2日,OpenAI的多个版本模型表现出色,其中“ChatGPT-4o”位居第三,此外,谷歌的“Gemini-2.0”和xAI的“Grok-2”等也名列前茅,但它们均为闭源模型。

在开源模型方面,“DeepSeek-R1”表现突出,与“ChatGPT-4o-latest”并列第3位,紧接着的是阿里云通义的“Qwen-max-2025-01-25”(即Qwen2.5-Max),排名第7。“DeepSeek-V3”和中国智谱的“GLM-4-Plus-0111”分别位列第8和第9,而阶跃星辰的“Step-2-16K-Exp”与“o1-Mini”并列第10。榜单前十名中,中国大语言模型占据了五席,显示出中国在人工智能领域的强劲竞争实力。

去年6月和9月,阿里云通义模型曾两度登顶全球最强开源模型的称号,但由于未能超越闭源模型,讨论热度不及12月的DeepSeek-V3。今年1月29日凌晨1时,阿里云通义团队正式推出“Qwen2.5-Max”,该模型采用了超大规模的混合专家(MoE, Mixture of Experts)架构,训练数据量超过20万亿tokens,并在知识(MMLU-Pro)、编程(LiveCodeBench)、综合能力(LiveBench)及人类偏好对齐(Arena-Hard)等权威基准测试中展现了卓越的性能。

需要强调的是,“Arena-Hard”主要评测模型在复杂指令理解和多轮对话中的能力,涵盖了广泛的知识领域和任务,并严格对齐人类偏好。在游戏开发、数学证明等专业领域,模型会获得较高分数,而在全球餐厅推荐或送礼创意等模糊问题上则得分较低,评审通常由国外模型担任。即便在这种情况下,“Qwen2.5-Max”依然能够迅速分析问题,并整合相关知识,提供全面且准确的答案,最终以89.4分超越所有对比模型(如DeepSeek-V3、Llama-3.1-405B-Inst、GPT-4o-0806、Claude-3.5-Sonnet-1022)。

根据阿里云的说法,由于无法访问闭源模型如“GPT-4o”和“Claude-3.5-Sonnet”,通义团队将“Qwen2.5-Max”与当前领先的开源MoE模型“DeepSeek V3”、最大的开源稠密模型“Llama-3.1-405B”以及同样处于开源稠密模型前列的“Qwen2.5-72B”进行了比较。在包括MMLU在内的所有11项基准测试中,Qwen2.5-Max均表现优于对比模型。

对此,ChatBot Arena官方评价道:“(Qwen2.5-Max)在多个领域的表现都相当出色,尤其是在编程、数学及硬提示等技术性任务上。”

本文为观察者网独家稿件,未经授权,禁止转载。

来源:今日头条
原文标题: 继 DeepSeek 后,阿里云通义千问也追上 OpenAI – 今日头条
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-01发表,共计1637字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!