共计 2865 个字符,预计需要花费 8 分钟才能阅读完成。
阿里巴巴的通义千问项目再次焕发活力,为多模态大模型的竞争注入了新动力。
在8月19日,通义团队发布了Qwen-Image-Edit,这一模型基于具有20亿参数的Qwen-Image,专注于语义及外观的编辑,支持双语文本的修改、风格迁移和物体旋转,进一步扩展了生成式AI在专业内容创作领域的应用潜力。
仅在过去六个月内,阿里先后推出了Qwen2.5-VL、Qwen2.5-Omni和Qwen-Image等多模态模型。与此同时,智谱、阶跃星辰等其他大模型企业也在积极布局,涵盖视觉理解到全模态交互等多个方面,预计到2025年,多模态大模型的迭代将显著加快。
业内普遍认为,现阶段大模型的发展已从单一的语言模型转向多模态融合的新阶段,这是迈向通用人工智能(AGI)的必经之路。
根据谷歌的研究报告,预计到2025年,全球多模态AI市场将达到24亿美元,而到2037年底,这一数字将飙升至989亿美元。
商汤科技的联合创始人林达华在接受21世纪经济报道采访时指出,未来的多模态模型可能在纯语言任务上超过单一语言模型,国内企业正在加快布局,预计到2025年下半年,多模态模型将普及。
国内企业积极布局多模态领域
2023年12月,谷歌的多模态Gemini 1.0模型正式上线,标志着AI竞争从由ChatGPT主导的文本领域向多模态领域的转变。
人类日常生活中,自然涉及文本、图像、视频、网页等多种信息的处理。从生产力工具到生产力的转变,关键在于多模态信息的输入、处理和输出能力。在当前大模型愈发注重实际应用的背景下,多模态能力已成为核心竞争力,与低成本、强智能并驾齐驱。
大型企业早已展开布局,阿里推出的Qwen2.5系列模型不断增强其多模态能力。
2025年,阿里将推出开源升级版视觉理解模型Qwen2.5-VL,72B版本在13项权威评测中全面超越GPT-4o和Claude3.5;同时发布的Qwen2.5-Omni是首个端到端全模态大模型,支持文本、图像、音频和视频的实时交互,适用于手机等智能硬件。
在8月,阿里还开源了全新的文生图模型Qwen-Image,该模型迅速登上AI开源社区Hugging Face的榜单首位,成为当前最受欢迎的开源模型。
新发布的Qwen-Image-Edit是基于20B参数的Qwen-Image模型进一步训练而成,扩展了其文本渲染能力至图像编辑领域,实现对图片中文字的精准编辑。
除了这一点,Qwen-Image-Edit还能将输入的图像同时传递给Qwen2.5-VL(实现视觉语义控制)和VAE Encoder(实现视觉外观控制),赋予其语义与外观的双重编辑能力。
业内人士普遍认为,Qwen-Image-Edit在中文图像编辑领域树立了新的标杆,尤其适合需要高精度文本修改和创意设计的应用场景,进一步降低了专业图像创作的门槛。
在积极布局多模态能力的企业中,速度不断加快。世界人工智能大会前夕,阶跃星辰发布了新一代基础大模型Step 3,原生支持多模态推理,具备视觉感知和复杂推理能力。在阶跃星辰Step系列模型中,多模态模型的比例已达到70%。此外,阶跃星辰还开源了多个多模态大模型,包括语音、视频生成和图像编辑等。
在同一场合,商汤发布了日日新V6.5大模型,进行了架构改进和成本优化,多模态推理和交互能力显著提升。从日日新6.0开始,商汤便不再推出单一的语言模型,全部为多模态模型。
8月,智谱宣布推出开源视觉推理模型GLM-4.5V,并在魔搭社区与Hugging Face同步上线,覆盖图像、视频、文档理解以及GUIAgent等任务。
在8月11日至15日,昆仑万维在一周内连续发布了六款多模态模型,涵盖数字人生成、世界模拟和统一多模态理解等核心场景。
这些全方位的开源策略显然旨在迅速占领开发者市场,建立各自产品在多模态领域的影响力。在这一时刻,多模态的竞争仍未晚。
多模态领域的发展仍处于初期阶段
要构建通用人工智能(AGI)和强大的AI系统,多模态能力至关重要。
林达华向21世纪经济报道指出:“从智能本质来看,跨模态的信息关联是必要的。”
在这一方面,中国科技企业发展迅速。一个显著的变化是,中国企业在多模态领域的崛起,正在改变长期以来由OpenAI、Google等西方巨头主导的AI创新格局,在视觉推理、视频生成等多个细分领域的权威榜单中占据了领先地位。
技术的进步推动了实际应用的落地。业内普遍认为2025年将被视为“AI应用商业化的元年”,而多模态技术正是这一趋势的核心动力,数字人直播、医疗诊断、金融分析等多个场景已开始应用多模态大模型。
然而,从技术角度看,多模态领域仍有巨大的发展空间,尤其是与文本领域相比。
“当前文本领域已从GPT范式的1.0发展至强化学习下的2.0,部分研究者开始探索下一代范式如自主学习。而多模态领域仍处于初期,许多基础性问题尚待解决。”阶跃星辰的创始人姜大昕向21世纪经济报道表示,“这些挑战不仅存在于国内,国际领先模型同样未能突破。”
多模态技术面临的瓶颈,其复杂性远超自然语言处理。首先,在表征复杂度上,文本作为离散符号系统,其表征空间通常只有几万维度,这对计算机处理而言是低维问题。而以1024×1024分辨率的图像为例,其表征空间可达百万维度,二者在表征难度上存在本质差异。
其次,在语义闭环性方面,文本系统具有天然的语义自闭环特性,语义表达与表征空间完全统一。相比之下,视觉数据作为自然存在的物理空间表征,自身并不包含语义信息。要实现视觉与文本语义空间的对齐,必须构建跨模态的映射关系,而这一映射缺乏天然的标注数据支持。
“这使得多模态领域的发展面临重大挑战,仍需经历几次像ChatGPT、强化学习范式这样的重大技术变革才能解决。”姜大昕指出。
同时,虽然许多模型在具体场景中实现了落地应用,但距离真正的AGI仍需漫长的探索之路。
主流多模态模型通过视觉编码器与语言模型的前后结合,但后续的推理过程仍主要依赖纯语言,因此当前多模态模型在图形和空间结构推理能力上仍显薄弱。林达华以国际顶尖多模态模型为例,指出在面对如积木拼接等简单空间问题时,它们也无法准确判断积木的数量及其连接关系,而这些问题对于几岁的儿童来说却是轻而易举的。
“这表明目前多模态模型的思维方式主要依赖逻辑推理,而缺乏较强的空间感知能力。如果这一问题得不到解决,未来将成为具身智能落地的重要障碍。”林达华强调。
随着技术不断成熟和生态逐步完善,多模态能力将成为AI系统的标准配置,而如何将这种能力转化为实际的生产力和社会价值,将是产业界下一步亟待探索的方向。
更多信息,请下载21财经APP。
