智源发布“百模”评测，国内大模型短板曝光！

共计 1208 个字符，预计需要花费 4 分钟才能阅读完成。

12月19日，智源研究院发布并详细解析了国内外超过100个开源与商业闭源的语言、视觉语言、文生图、文生视频及语音语言大模型的评测结果。

在语言模型的评估中，对于一般中文场景下的开放式问答或生成任务，模型的能力已经趋于饱和与稳定。然而，在复杂场景的任务中，国内顶尖语言模型依然与国际顶级水平存在显著差距。

在语言模型的主观评测中，重点考察了模型的中文处理能力。结果显示，字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别排名第一和第二，OpenAI的o1-preview-2024-09-12与Anthropic的Claude-3-5-sonnet-20241022紧随其后，位列第三和第四，而阿里巴巴的Qwen-Max-0919则排名第五。在客观评测中，OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest分别获得第一和第二的位置，阿里巴巴的Qwen-max-0919与字节跳动的Doubao-pro-32k-preview分列第三和第四，Meta的Llama-3.3-70B-Instruct也跻身前五名。

能够一句话生成流畅而精致的视频，Sora所引领的文生视频模型热潮在过去一年备受关注。智源的评测显示，文生视频多模态模型在过去一年里画质得到了显著提升，动态表现更为强烈，镜头语言愈加丰富，场景切换也更加流畅，然而依然普遍存在动作变形严重、缺乏对物理规律的理解等问题。例如，视频中某些物体会突然消失、闪现或互相穿透。评测结果显示，快手可灵1.5（高品质）、字节跳动的即梦P2.0 pro、爱诗科技的PixVerse V3、MiniMax的海螺AI及Pika 1.5名列文生视频模型的前五。

在文生图的评测中，观察到今年上半年参评的模型普遍无法生成准确的中文文字，但此次参评的顶尖模型已具备中文文字生成的能力。不过，文生图模型仍面临复杂场景下人物变形等问题，难以胜任涉及常识或知识推理的任务。例如，无法处理数量大于3的关系，在涉及中国文化及古诗词理解的场景表现不佳等。评测结果显示，在文生图模型中，腾讯的Hunyuan Image排名第一，字节跳动的Doubao image v2.1和Ideogram 2.0分别位居第二和第三，OpenAI的DALL·E 3和快手的可图模型紧随其后。

此次评测是基于智源研究院在2023年6月上线的模型评测平台FlagEval，经过多次迭代，目前已覆盖全球800多个开源与闭源模型，涵盖20多种任务，90多个评测数据集，超过200万条评测题目，评测方法与工具由智源研究院联合全国十余家高校及机构共同开发建设。

记者：孙奇茹

来源：今日头条

原文标题：智源发布“百模”评测结果，国内大模型仍存这些短板 – 今日头条

原文链接：https://toutiao.com/group/7450373446720094760/

正文完

人工智能大模型智源短板评测

发表至： ChatGPT中文版

2025-10-03

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

深入探讨ChatGPT中文版的使用攻略：从手机版汉化到电脑版功能全解析

全面解析手机版ChatGPT：从官网中文版4.0到安装使用全攻略

中国版ChatGPT如何快速设置成中文，安卓手机版用户必看技巧和体验分享

华为手机微信下载的文件存在手机什么位置可以删除

中国版ChatGPT软件全解析：从手机版到网页版，深度探索各大企业与功能新动向

全面攻略！如何轻松使用ChatGPT中文在线版及其下载方法-揭开ChatGPT中文版使用技巧与应用

全面解析：中国版ChatGPT的收费情况及中文使用指南

如何使用ChatGPT手机版，轻松切换中文及全新功能一览

豆包AI视频实测：惊艳效果让人目瞪口呆！

中国AI大模型登上《自然》封面：距离医学应用的突破还有多远？