共计 1208 个字符,预计需要花费 4 分钟才能阅读完成。
12月19日,智源研究院发布并详细解析了国内外超过100个开源与商业闭源的语言、视觉语言、文生图、文生视频及语音语言大模型的评测结果。
在语言模型的评估中,对于一般中文场景下的开放式问答或生成任务,模型的能力已经趋于饱和与稳定。然而,在复杂场景的任务中,国内顶尖语言模型依然与国际顶级水平存在显著差距。
在语言模型的主观评测中,重点考察了模型的中文处理能力。结果显示,字节跳动的Doubao-pro-32k-preview和百度的ERNIE 4.0 Turbo分别排名第一和第二,OpenAI的o1-preview-2024-09-12与Anthropic的Claude-3-5-sonnet-20241022紧随其后,位列第三和第四,而阿里巴巴的Qwen-Max-0919则排名第五。在客观评测中,OpenAI的o1-mini-2024-09-12和Google的Gemini-1.5-pro-latest分别获得第一和第二的位置,阿里巴巴的Qwen-max-0919与字节跳动的Doubao-pro-32k-preview分列第三和第四,Meta的Llama-3.3-70B-Instruct也跻身前五名。
能够一句话生成流畅而精致的视频,Sora所引领的文生视频模型热潮在过去一年备受关注。智源的评测显示,文生视频多模态模型在过去一年里画质得到了显著提升,动态表现更为强烈,镜头语言愈加丰富,场景切换也更加流畅,然而依然普遍存在动作变形严重、缺乏对物理规律的理解等问题。例如,视频中某些物体会突然消失、闪现或互相穿透。评测结果显示,快手可灵1.5(高品质)、字节跳动的即梦P2.0 pro、爱诗科技的PixVerse V3、MiniMax的海螺AI及Pika 1.5名列文生视频模型的前五。
在文生图的评测中,观察到今年上半年参评的模型普遍无法生成准确的中文文字,但此次参评的顶尖模型已具备中文文字生成的能力。不过,文生图模型仍面临复杂场景下人物变形等问题,难以胜任涉及常识或知识推理的任务。例如,无法处理数量大于3的关系,在涉及中国文化及古诗词理解的场景表现不佳等。评测结果显示,在文生图模型中,腾讯的Hunyuan Image排名第一,字节跳动的Doubao image v2.1和Ideogram 2.0分别位居第二和第三,OpenAI的DALL·E 3和快手的可图模型紧随其后。
此次评测是基于智源研究院在2023年6月上线的模型评测平台FlagEval,经过多次迭代,目前已覆盖全球800多个开源与闭源模型,涵盖20多种任务,90多个评测数据集,超过200万条评测题目,评测方法与工具由智源研究院联合全国十余家高校及机构共同开发建设。
记者:孙奇茹