阿里通义千问再掀波澜,多模态大模型加速演进AGI新纪元

共计 2790 个字符,预计需要花费 7 分钟才能阅读完成。

21世纪经济报道记者 董静怡

阿里近期再次推动了多模态大模型的发展,给这一领域注入了新的活力。

在8月19日,通义团队发布了Qwen-Image-Edit,这一基于20B参数的Qwen-Image模型专注于语义和视觉编辑,具备双语文本修改、风格迁移及物体旋转的能力,进一步拓宽了生成式AI在专业内容创作中的应用范围。

在短短半年之内,阿里相继推出了Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型。同时,其他公司如智谱、阶跃星辰等也在积极布局,视觉理解到全模态交互的快速迭代将在2025年加速实现。

业内普遍认为,当前大模型的发展已经不仅仅限于单一的语言模型,而是向多模态融合的新阶段迈进,这是实现通用人工智能(AGI)的关键路径。

根据谷歌的研究报告,预计到2025年,全球多模态AI市场的规模将达到24亿美元,而这一数字预计在2037年底将飙升至989亿美元。

商汤科技的联合创始人、执行董事及首席科学家林达华在接受21世纪经济报道采访时表示,未来的多模态模型有望在纯语言任务上超越单一语言模型,国内企业也在加速布局,预计2025年下半年将会迎来多模态模型的全面普及。

国内企业的密集布局

2023年12月,谷歌推出了原生多模态Gemini 1.0模型,首次将AI竞赛从以ChatGPT为主的文本领域带入多模态领域。

人们日常生活中的任务往往涉及文本、图像、视频、网页等多模态信息的处理。在当前大模型越来越强调实际应用的背景下,多模态的信息输入、处理与输出能力已成为核心竞争点,和低成本、强智能等特征同样重要。

大企业也早已开始相关布局,阿里推出的Qwen2.5系列正逐步强化其多模态能力。

2025年,阿里将开源升级版的视觉理解模型Qwen2.5-VL,其72B版本在多项权威评测中超越了GPT-4o与Claude3.5;同时发布的Qwen2.5-Omni是首个端到端的全模态大模型,能进行文本、图像、音频和视频的实时交互,适用于手机等智能硬件。

在8月,阿里还开源了全新的文生图模型Qwen-Image,该模型迅速登上Hugging Face的开源社区榜单,成为全球最受欢迎的开源模型。

新发布的Qwen-Image-Edit是在20B的Qwen-Image基础上进一步训练的,扩展了其文本渲染能力到图像编辑,实现对图片中文字的精确编辑。

此外,Qwen-Image-Edit在输入图像的同时,结合Qwen2.5-VL(用于视觉语义控制)和VAE Encoder(用于视觉外观控制),具备了语义与外观双重编辑能力。

业内人士评价,Qwen-Image-Edit在中文图像编辑领域树立了新的标杆,尤其适合需要高精度文本修改和创意设计的场景,进一步降低了专业图像创作的门槛。

不仅阿里在积极布局,近期模型迭代的速度也在加快。

在世界人工智能大会前夕,阶跃星辰推出了新一代基础大模型Step 3,原生支持多模态推理,具备视觉感知和复杂推理的能力。在其step系列基座模型矩阵中,多模态模型占比高达70%。此外,阶跃星辰还持续开源了多个多模态大模型,包括语音、视频生成和图像编辑等。

在同一场合,商汤发布了日日新V6.5大模型,进行了架构改进和成本优化,显著提升了多模态推理与交互性能。商汤从日日新6.0开始,就没有单独的语言模型,全部都是多模态模型。

8月,智谱也宣布推出开源视觉推理模型GLM-4.5V,并同时在魔搭社区与Hugging Face开源,涵盖图像、视频、文档理解以及GUIAgent等常见任务。

在8月11日至15日,昆仑万维在一周内相继发布了六款多模态模型,覆盖了数字人生成、世界模拟、统一多模态理解等核心场景。

这些全面的开源策略显然旨在迅速占领开发者的心智,建立各自产品在多模态领域的广泛影响力。在当前这一时机,多模态的竞争仍然是一个良好的机会。

仍然处于发展初期

要构建通用人工智能(AGI)和强大的AI系统,多模态能力显得尤为重要。

林达华向21世纪经济报道记者指出,从智能的本质来看,需要对各种模态的信息进行跨模态关联。

在这一方面,中国科技公司的发展速度非常迅速。一个显著的变化是,中国企业在多模态领域的集体崛起,正在改变长期以来由OpenAI和Google等西方巨头主导的AI创新叙事,在视觉推理、视频生成等多个领域跻身权威榜单的前列。

技术的进步正在加快落地应用。2025年被业界普遍看作“AI应用商业化的元年”,而多模态技术则是这一趋势的核心驱动力,数字人直播、医疗诊断、金融分析等场景中都已经应用了多模态大模型。

不过,从技术层面来看,多模态领域仍有很大的发展空间,尤其是与文本领域相比。

阶跃星辰的创始人、CEO姜大昕向21世纪经济报道记者表示,目前文本领域已从GPT范式的1.0发展到强化学习范式的2.0,部分研究者甚至开始探索如自主学习的下一代范式。而多模态领域仍处于初期阶段,许多基础性问题尚待解决。

这些挑战不仅存在于国内,国际领先模型同样面临未能克服的难题。

多模态技术所面临的瓶颈,其复杂性远超自然语言处理。首先,从表征复杂度来看,文本作为离散符号系统,其表征空间通常仅在数万维度,而以1024×1024分辨率的图像为例,其表征空间则达到百万维度的连续空间,二者在表征难度上有本质差异。

其次,在语义闭环性方面,文本系统具有天然的语义自闭环特性,其语义表达与表征空间完全一致。而视觉数据作为自然存在的物理空间表征,本身并不包含语义信息。要实现视觉与文本语义空间的对齐,必须建立跨模态的映射关系,而这一映射关系缺乏天然的标注数据支持。

这些因素使得多模态领域的发展面临重大挑战,仍需经历几次如ChatGPT、强化学习范式等重大技术变迁才能有所突破。姜大昕表示。

此外,尽管许多模型已经在特定场景中实现了落地应用,但距离真正实现AGI依然还有很长的路要走。

主流的多模态模型通过视觉编码器与语言模型的结合,但后续的思考推理过程主要依赖纯语言的推理,因此当前多模态模型在图形和空间结构的推理能力上仍然相对薄弱。林达华举例称,国际顶尖多模态模型在处理如积木拼接等简单空间问题时,亦无法准确判断积木的数量及其连接关系,而这些问题对于几岁的儿童来说却是轻而易举的。

这表明,目前的多模态模型的思维方式主要依赖于逻辑推理,缺乏强大的空间感知能力。如果这一问题得不到有效解决,将在未来成为实现具身智能的重要障碍。

随着技术的不断成熟和生态的持续完善,多模态能力将成为AI系统的标准配置,而如何将这一能力转化为实际的生产力和社会价值,将是产业界需要重点探索的方向。

欲了解更多内容,请下载21财经APP。

来源:今日头条
原文标题: 阿里通义千问再放大招,多模态大模型迭代加速改写 AGI 时间表 – 今日头条
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-03发表,共计2790字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!