阿里通义千问重磅升级，多模态大模型加速AGI时代的到来！

共计 2865 个字符，预计需要花费 8 分钟才能阅读完成。

阿里通义千问再添新动态，助力多模态AI发展

阿里巴巴的通义千问项目再次焕发活力，为多模态大模型的竞争注入了新动力。

在8月19日，通义团队发布了Qwen-Image-Edit，这一模型基于具有20亿参数的Qwen-Image，专注于语义及外观的编辑，支持双语文本的修改、风格迁移和物体旋转，进一步扩展了生成式AI在专业内容创作领域的应用潜力。

仅在过去六个月内，阿里先后推出了Qwen2.5-VL、Qwen2.5-Omni和Qwen-Image等多模态模型。与此同时，智谱、阶跃星辰等其他大模型企业也在积极布局，涵盖视觉理解到全模态交互等多个方面，预计到2025年，多模态大模型的迭代将显著加快。

业内普遍认为，现阶段大模型的发展已从单一的语言模型转向多模态融合的新阶段，这是迈向通用人工智能（AGI）的必经之路。

根据谷歌的研究报告，预计到2025年，全球多模态AI市场将达到24亿美元，而到2037年底，这一数字将飙升至989亿美元。

商汤科技的联合创始人林达华在接受21世纪经济报道采访时指出，未来的多模态模型可能在纯语言任务上超过单一语言模型，国内企业正在加快布局，预计到2025年下半年，多模态模型将普及。

2023年12月，谷歌的多模态Gemini 1.0模型正式上线，标志着AI竞争从由ChatGPT主导的文本领域向多模态领域的转变。

人类日常生活中，自然涉及文本、图像、视频、网页等多种信息的处理。从生产力工具到生产力的转变，关键在于多模态信息的输入、处理和输出能力。在当前大模型愈发注重实际应用的背景下，多模态能力已成为核心竞争力，与低成本、强智能并驾齐驱。

大型企业早已展开布局，阿里推出的Qwen2.5系列模型不断增强其多模态能力。

2025年，阿里将推出开源升级版视觉理解模型Qwen2.5-VL，72B版本在13项权威评测中全面超越GPT-4o和Claude3.5；同时发布的Qwen2.5-Omni是首个端到端全模态大模型，支持文本、图像、音频和视频的实时交互，适用于手机等智能硬件。

在8月，阿里还开源了全新的文生图模型Qwen-Image，该模型迅速登上AI开源社区Hugging Face的榜单首位，成为当前最受欢迎的开源模型。

新发布的Qwen-Image-Edit是基于20B参数的Qwen-Image模型进一步训练而成，扩展了其文本渲染能力至图像编辑领域，实现对图片中文字的精准编辑。

除了这一点，Qwen-Image-Edit还能将输入的图像同时传递给Qwen2.5-VL（实现视觉语义控制）和VAE Encoder（实现视觉外观控制），赋予其语义与外观的双重编辑能力。

业内人士普遍认为，Qwen-Image-Edit在中文图像编辑领域树立了新的标杆，尤其适合需要高精度文本修改和创意设计的应用场景，进一步降低了专业图像创作的门槛。

在积极布局多模态能力的企业中，速度不断加快。世界人工智能大会前夕，阶跃星辰发布了新一代基础大模型Step 3，原生支持多模态推理，具备视觉感知和复杂推理能力。在阶跃星辰Step系列模型中，多模态模型的比例已达到70%。此外，阶跃星辰还开源了多个多模态大模型，包括语音、视频生成和图像编辑等。

在同一场合，商汤发布了日日新V6.5大模型，进行了架构改进和成本优化，多模态推理和交互能力显著提升。从日日新6.0开始，商汤便不再推出单一的语言模型，全部为多模态模型。

8月，智谱宣布推出开源视觉推理模型GLM-4.5V，并在魔搭社区与Hugging Face同步上线，覆盖图像、视频、文档理解以及GUIAgent等任务。

在8月11日至15日，昆仑万维在一周内连续发布了六款多模态模型，涵盖数字人生成、世界模拟和统一多模态理解等核心场景。

这些全方位的开源策略显然旨在迅速占领开发者市场，建立各自产品在多模态领域的影响力。在这一时刻，多模态的竞争仍未晚。

要构建通用人工智能（AGI）和强大的AI系统，多模态能力至关重要。

林达华向21世纪经济报道指出：“从智能本质来看，跨模态的信息关联是必要的。”

在这一方面，中国科技企业发展迅速。一个显著的变化是，中国企业在多模态领域的崛起，正在改变长期以来由OpenAI、Google等西方巨头主导的AI创新格局，在视觉推理、视频生成等多个细分领域的权威榜单中占据了领先地位。

技术的进步推动了实际应用的落地。业内普遍认为2025年将被视为“AI应用商业化的元年”，而多模态技术正是这一趋势的核心动力，数字人直播、医疗诊断、金融分析等多个场景已开始应用多模态大模型。

然而，从技术角度看，多模态领域仍有巨大的发展空间，尤其是与文本领域相比。

“当前文本领域已从GPT范式的1.0发展至强化学习下的2.0，部分研究者开始探索下一代范式如自主学习。而多模态领域仍处于初期，许多基础性问题尚待解决。”阶跃星辰的创始人姜大昕向21世纪经济报道表示，“这些挑战不仅存在于国内，国际领先模型同样未能突破。”

多模态技术面临的瓶颈，其复杂性远超自然语言处理。首先，在表征复杂度上，文本作为离散符号系统，其表征空间通常只有几万维度，这对计算机处理而言是低维问题。而以1024×1024分辨率的图像为例，其表征空间可达百万维度，二者在表征难度上存在本质差异。

其次，在语义闭环性方面，文本系统具有天然的语义自闭环特性，语义表达与表征空间完全统一。相比之下，视觉数据作为自然存在的物理空间表征，自身并不包含语义信息。要实现视觉与文本语义空间的对齐，必须构建跨模态的映射关系，而这一映射缺乏天然的标注数据支持。

“这使得多模态领域的发展面临重大挑战，仍需经历几次像ChatGPT、强化学习范式这样的重大技术变革才能解决。”姜大昕指出。

同时，虽然许多模型在具体场景中实现了落地应用，但距离真正的AGI仍需漫长的探索之路。

主流多模态模型通过视觉编码器与语言模型的前后结合，但后续的推理过程仍主要依赖纯语言，因此当前多模态模型在图形和空间结构推理能力上仍显薄弱。林达华以国际顶尖多模态模型为例，指出在面对如积木拼接等简单空间问题时，它们也无法准确判断积木的数量及其连接关系，而这些问题对于几岁的儿童来说却是轻而易举的。

“这表明目前多模态模型的思维方式主要依赖逻辑推理，而缺乏较强的空间感知能力。如果这一问题得不到解决，未来将成为具身智能落地的重要障碍。”林达华强调。

随着技术不断成熟和生态逐步完善，多模态能力将成为AI系统的标准配置，而如何将这种能力转化为实际的生产力和社会价值，将是产业界下一步亟待探索的方向。

更多信息，请下载21财经APP。

来源：今日头条

原文标题：阿里通义千问再放大招多模态大模型迭代加速改写AGI时间表 – 今日头条

原文链接：https://www.toutiao.com/article/7540428590068908598/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

AGI时代人工智能多模态大模型技术升级阿里巴巴

发表至：通义千问

2025-11-10

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

阿里全面接入“通义千问”，开启第三方大模型合作新篇章

全新Qwen3-Max-Preview发布，官方称其为通义千问系列的最强语言模型！

阿里云重磅推出通义千问旗舰版模型Qwen2.5-Max，颠覆智能问答新时代！

阿里通义千问强势挑战爱彼迎，CEO力赞其超越OpenAI，硅谷企业纷纷追随！

揭秘阿里云自研大模型“通义千问”的深度实测成果！

通义千问重磅推出Qwen3-Coder，颠覆编程体验！

通义App强势登场，千问3震撼上线！

阿里云通义千问紧追OpenAI，继DeepSeek之后的重大突破！

文本写作AI的崛起，你准备好迎接写作新趋势了吗？

阿里通义千问重磅升级，多模态大模型加速AGI时代的到来！

国内企业积极布局多模态领域

多模态领域的发展仍处于初期阶段

GPT-5 发布在即：8 月 8 日凌晨发布的关键亮点与关注要点！

关注GPT-5发布：8月8日凌晨1点，重磅消息解析！

OpenAI欲以30亿美元收购AI编程独角兽Windsurf，震撼科技界！

免费的AI情感分析应用让你轻松揭开心灵密码，想知道TA在想什么吗？

3200+ Cursor 用户遭遇恶意攻击！贪图便宜 API 的代价，AI 开发者需警惕风险！

Claude Code vs. Gemini CLI vs. Cursor vs. Qwen Code – 今日头条

玩转cursor编程！我用它打造个人网站，没想到收获了超多用户反馈！

Windsurf员工面临最后通牒：接受996或选择赔偿走人！