阿里云Qwen3系列大型语言模型发布评测：创新与挑战并存！

共计 1017 个字符，预计需要花费 3 分钟才能阅读完成。

根据介绍，旗舰型号Qwen3-235B-A22B在多项基准测试中展现出色的竞争力，特别是在代码、数学及通用能力方面，表现甚至超过了DeepSeek-R1、o1、o3-mini、Grok-3以及Gemini-2.5-Pro等一流模型。此外，较小的MoE模型Qwen3-30B-A3B的激活参数仅为QwQ-32B的10%，其表现更为突出，甚至连Qwen3-4B这样的较小型号都能与Qwen2.5-72B-Instruct的性能相提并论。

然而，我必须泼点冷水，Qwen 3实质上只是一个解题模型，世界知识的储备相对匮乏，实际使用中的稳定性令人担忧。

以Simple QA测试集为例，Qwen 3的旗舰版本235B A22B仅获得了11%的得分。Simple QA主要涉及一些事实性问题，用以衡量模型对世界知识的掌握程度。右侧那几乎看不见的条形图，正是Simple QA的得分情况。

11%的得分意味着什么呢？这个数字实在太低了。比如，GPT 4o的得分接近40%。这样的得分水平，与GPT 4o mini相仿。

这也解释了之前QwQ模型所遇到的问题，即对于一些基本概念的无知和独立推理的局限。

目前，通过强化学习对小型模型进行过度训练，虽然在数学、物理和编程能力上有所提升，但模型依然缺乏知识的积累，仅仅掌握了解题的技巧。

我也难以理解，解题模型除了用于竞赛培训和高考难题辅导外，还有什么实际意义。就像许多人使用谷歌搜索，很多关键词只为找到官方网站，当前的大型模型问答仍然停留在基础知识层面。

在我的日常对话中，使用频率最高的仍是GPT 4o和Claude 3.7 sonnet。从实际体验来看，Qwen 3的稳定性同样令人担忧，时常出现无限推理的死循环，或者代码变长后开始出现杂乱无章的情况，仿佛这种模型接近崩溃，发布的更像是实验品而非成熟产品。

由于llama 4未推出适合个人设备的小型8B模型，Qwen 3的0.6B、4B和8B系列产品成为了本地用户的唯一选择。

务实地进行模型开发，而不是单纯追求高分，Qwen本有潜力做得更好。

来源：知乎

原文标题：如何评价阿里云刚刚发布的 Qwen3 系列大型语言模型？– 知乎

原文链接：https://www.zhihu.com/question/1900463055457989808/answer/1901265925174456448

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

Qwen3 创新挑战语言模型阿里云

发表至： chatgpt知识

2025-10-04

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

探索chatGPT如何改变工作与社交方式

ChatGPT注册详细流程

知乎官方指南：必读的精选问答合集

从ChatGPT对话到学术写作，探索其在人工智能应用中的无限可能性！

OpenAI：推动人工智能发展与应用

如何评价9月24日凌晨发布的qwen3 max正式版？有哪些惊喜？ – 知乎

ChatGPT：引领人工智能对话的新篇章

免费ChatGPT中文版：智能AI助手助力便捷交流

“国产Sora”大模型崭露头角，商业化实现成关键挑战

李彦宏：文心一言揭示大语言模型深度发展的真相