阿里通义千问再掀波澜，多模态大模型加速演进AGI新纪元

没有评论

共计 2790 个字符，预计需要花费 7 分钟才能阅读完成。

21世纪经济报道记者董静怡

阿里近期再次推动了多模态大模型的发展，给这一领域注入了新的活力。

在8月19日，通义团队发布了Qwen-Image-Edit，这一基于20B参数的Qwen-Image模型专注于语义和视觉编辑，具备双语文本修改、风格迁移及物体旋转的能力，进一步拓宽了生成式AI在专业内容创作中的应用范围。

在短短半年之内，阿里相继推出了Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模态模型。同时，其他公司如智谱、阶跃星辰等也在积极布局，视觉理解到全模态交互的快速迭代将在2025年加速实现。

业内普遍认为，当前大模型的发展已经不仅仅限于单一的语言模型，而是向多模态融合的新阶段迈进，这是实现通用人工智能（AGI）的关键路径。

根据谷歌的研究报告，预计到2025年，全球多模态AI市场的规模将达到24亿美元，而这一数字预计在2037年底将飙升至989亿美元。

商汤科技的联合创始人、执行董事及首席科学家林达华在接受21世纪经济报道采访时表示，未来的多模态模型有望在纯语言任务上超越单一语言模型，国内企业也在加速布局，预计2025年下半年将会迎来多模态模型的全面普及。

2023年12月，谷歌推出了原生多模态Gemini 1.0模型，首次将AI竞赛从以ChatGPT为主的文本领域带入多模态领域。

人们日常生活中的任务往往涉及文本、图像、视频、网页等多模态信息的处理。在当前大模型越来越强调实际应用的背景下，多模态的信息输入、处理与输出能力已成为核心竞争点，和低成本、强智能等特征同样重要。

大企业也早已开始相关布局，阿里推出的Qwen2.5系列正逐步强化其多模态能力。

2025年，阿里将开源升级版的视觉理解模型Qwen2.5-VL，其72B版本在多项权威评测中超越了GPT-4o与Claude3.5；同时发布的Qwen2.5-Omni是首个端到端的全模态大模型，能进行文本、图像、音频和视频的实时交互，适用于手机等智能硬件。

在8月，阿里还开源了全新的文生图模型Qwen-Image，该模型迅速登上Hugging Face的开源社区榜单，成为全球最受欢迎的开源模型。

新发布的Qwen-Image-Edit是在20B的Qwen-Image基础上进一步训练的，扩展了其文本渲染能力到图像编辑，实现对图片中文字的精确编辑。

此外，Qwen-Image-Edit在输入图像的同时，结合Qwen2.5-VL（用于视觉语义控制）和VAE Encoder（用于视觉外观控制），具备了语义与外观双重编辑能力。

业内人士评价，Qwen-Image-Edit在中文图像编辑领域树立了新的标杆，尤其适合需要高精度文本修改和创意设计的场景，进一步降低了专业图像创作的门槛。

不仅阿里在积极布局，近期模型迭代的速度也在加快。

在世界人工智能大会前夕，阶跃星辰推出了新一代基础大模型Step 3，原生支持多模态推理，具备视觉感知和复杂推理的能力。在其step系列基座模型矩阵中，多模态模型占比高达70%。此外，阶跃星辰还持续开源了多个多模态大模型，包括语音、视频生成和图像编辑等。

在同一场合，商汤发布了日日新V6.5大模型，进行了架构改进和成本优化，显著提升了多模态推理与交互性能。商汤从日日新6.0开始，就没有单独的语言模型，全部都是多模态模型。

8月，智谱也宣布推出开源视觉推理模型GLM-4.5V，并同时在魔搭社区与Hugging Face开源，涵盖图像、视频、文档理解以及GUIAgent等常见任务。

在8月11日至15日，昆仑万维在一周内相继发布了六款多模态模型，覆盖了数字人生成、世界模拟、统一多模态理解等核心场景。

这些全面的开源策略显然旨在迅速占领开发者的心智，建立各自产品在多模态领域的广泛影响力。在当前这一时机，多模态的竞争仍然是一个良好的机会。

要构建通用人工智能（AGI）和强大的AI系统，多模态能力显得尤为重要。

林达华向21世纪经济报道记者指出，从智能的本质来看，需要对各种模态的信息进行跨模态关联。

在这一方面，中国科技公司的发展速度非常迅速。一个显著的变化是，中国企业在多模态领域的集体崛起，正在改变长期以来由OpenAI和Google等西方巨头主导的AI创新叙事，在视觉推理、视频生成等多个领域跻身权威榜单的前列。

技术的进步正在加快落地应用。2025年被业界普遍看作“AI应用商业化的元年”，而多模态技术则是这一趋势的核心驱动力，数字人直播、医疗诊断、金融分析等场景中都已经应用了多模态大模型。

不过，从技术层面来看，多模态领域仍有很大的发展空间，尤其是与文本领域相比。

阶跃星辰的创始人、CEO姜大昕向21世纪经济报道记者表示，目前文本领域已从GPT范式的1.0发展到强化学习范式的2.0，部分研究者甚至开始探索如自主学习的下一代范式。而多模态领域仍处于初期阶段，许多基础性问题尚待解决。

这些挑战不仅存在于国内，国际领先模型同样面临未能克服的难题。

多模态技术所面临的瓶颈，其复杂性远超自然语言处理。首先，从表征复杂度来看，文本作为离散符号系统，其表征空间通常仅在数万维度，而以1024×1024分辨率的图像为例，其表征空间则达到百万维度的连续空间，二者在表征难度上有本质差异。

其次，在语义闭环性方面，文本系统具有天然的语义自闭环特性，其语义表达与表征空间完全一致。而视觉数据作为自然存在的物理空间表征，本身并不包含语义信息。要实现视觉与文本语义空间的对齐，必须建立跨模态的映射关系，而这一映射关系缺乏天然的标注数据支持。

这些因素使得多模态领域的发展面临重大挑战，仍需经历几次如ChatGPT、强化学习范式等重大技术变迁才能有所突破。姜大昕表示。

此外，尽管许多模型已经在特定场景中实现了落地应用，但距离真正实现AGI依然还有很长的路要走。

主流的多模态模型通过视觉编码器与语言模型的结合，但后续的思考推理过程主要依赖纯语言的推理，因此当前多模态模型在图形和空间结构的推理能力上仍然相对薄弱。林达华举例称，国际顶尖多模态模型在处理如积木拼接等简单空间问题时，亦无法准确判断积木的数量及其连接关系，而这些问题对于几岁的儿童来说却是轻而易举的。

这表明，目前的多模态模型的思维方式主要依赖于逻辑推理，缺乏强大的空间感知能力。如果这一问题得不到有效解决，将在未来成为实现具身智能的重要障碍。

随着技术的不断成熟和生态的持续完善，多模态能力将成为AI系统的标准配置，而如何将这一能力转化为实际的生产力和社会价值，将是产业界需要重点探索的方向。

欲了解更多内容，请下载21财经APP。

来源：今日头条

原文标题：阿里通义千问再放大招，多模态大模型迭代加速改写 AGI 时间表 – 今日头条

原文链接：https://toutiao.com/group/7540270427512291878/

正文完

AGI 人工智能多模态大模型阿里

发表至：通义千问

2025-10-03

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

网易引入通义千问，游戏开发效率提升50%！

通义千问AgentScope1.0震撼上线，开源智能体全新登场！

通义千问发布Qwen3-Max推理模型早期预览，引领智能新潮流！

阿里通义千问重磅升级！三大亮点抢先看！

通义千问全球热议，爱彼迎CEO与马斯克争相点赞，国产AI究竟隐藏了哪些秘密？

通义千问引领新潮流，组建机器人AI团队迎接未来挑战

阿里云推出“通义千问”，助力企业轻松生成大模型！

阿里通义千问Qwen3-Max官网上线深度思考功能，开启智能对话新纪元！

阿里云通义千问全面开放，赋能社会新未来

阿里通义千问再掀波澜，多模态大模型加速演进AGI新纪元

国内企业的密集布局

仍然处于发展初期

“数字人”高管的管理之道：成效与挑战分析

周报AI写作崛起：一文告诉你如何轻松生成高效周报，难道真的能取代人类？

写作AI颠覆传统，创作从此不再孤单！2025年全新生成写作AI强势来袭，助你轻松实现写作梦想！

快手全新发布AI编程产品矩阵：工具、模型与平台三合一，开启智能编程新时代！

AI写作门槛高低成关注热点，创作者是否准备好迎接挑战？

AI编程助手的技术演进与实践：从辅助到协同的未来之路｜AICon 上海

30天AI编程挑战：我如何克服艰难与成长

AI写作摘要引发热议！自动化是否真正能提高创作质量？