阿里通义千问发布多模态模型Qwen VLo：打破感知与生成的界限！

没有评论

共计 1229 个字符，预计需要花费 4 分钟才能阅读完成。

根据6月27日的消息，阿里云通义千问正式推出了最新的多模态统一理解与生成模型——Qwen VLo。用户可通过 Qwen Chat（chat.qwen.ai）进行体验。

这一创新模型不仅具备“理解”世界的能力，还能够在此基础上进行高质量的再创造，真正实现了从感知到生成的飞跃。

Qwen VLo 采用渐进式生成的方法，从左到右、从上到下逐步构建出整幅图像。

在这个生成过程当中，模型会不断地调整和优化预测的内容，从而确保最终效果的和谐一致。这种生成机制不仅提升了视觉效果，还为用户创造了更加灵活和可控的创作体验。

官方指出，Qwen VLo 采用了动态分辨率训练，支持灵活的动态分辨率生成。在输入和输出端，模型能够处理任意分辨率和长宽比的图像生成需求。

这意味着用户可以不再受到固定格式的限制，能够根据实际需求生成适用于不同场景的图像内容，包括海报、插图、网页横幅以及社交媒体封面等，都能轻松处理。

此外，Qwen VLo 还创新性地引入了一种新的生成机制：从上到下、从左到右的逐步清晰生成。这种机制不仅提高了生成效率，尤其适合需要精细控制的长段文字生成任务。当生成带有大量文本的广告设计或漫画分镜时，Qwen VLo 能够逐步生成并进行实时修改。这一渐进式的方式让用户能够在创作过程中实时观察并进行调整，从而达到最佳效果。

阿里云官方提醒，Qwen VLo 目前仍处于预览阶段，存在一定不足之处，生成过程中可能出现与事实不符或与原图不一致的问题，开发团队正在持续进行改进。

Qwen VLo 在多模态理解与生成能力上进行了全面提升，显著增强了对图像内容的理解深度，从而实现了更加准确和一致的生成效果。

以下是 Qwen VLo 的主要亮点：

01 更精准的内容理解与再创造

以往的多模态模型在生成过程中容易出现语义不一致的情况，例如将汽车误认为其他物体，或者无法保留原图的关键结构特征。而 Qwen VLo 则通过强大的细节捕捉能力，在生成过程中保持高度的语义一致性。举例来说，当用户上传一张汽车照片并要求“更换颜色”时，Qwen VLo 不仅能够准确识别车型，还可以保留原有的结构特征，同时自然地完成色彩风格转换，确保生成的结果既符合预期又真实。

02 支持开放指令的编辑和生成修改

用户能够通过自然语言提出各种创意指令，例如“把这幅画风格改为梵高风格”、“让这张照片看起来像19世纪的老照片”或“为这张图片添加一个晴朗的天空”。Qwen VLo 能够灵活响应这些开放性指令，并生成符合用户预期的结果。无论是艺术风格迁移、场景重构还是细节修饰，模型都能轻松实现。即使一些传统的视觉感知任务，如深度图预测、分割图生成、检测图以及边缘信息提取等，也能够通过编辑指令顺利完成。更进一步，面对复杂的指令，模型也能轻松应对，例如同时修改物体、文字和背景的要求。

03 多语言指令支持

Qwen VLo 支持多种语言的指令，包括中文和英文，打破了语言障碍，为全球用户提供了便捷的交互体验。无论您使用何种语言，只需简单描述需求，模型便能迅速理解并输出理想结果。

正文完

Qwen VLo 人工智能多模态感知生成阿里

发表至：通义千问

2025-10-03

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

使用智语AI写作智能工具，您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章，还是创作引人入胜的故事，AI助手都能为您提供丰富的素材和创意，激发您的写作灵感。您只需输入几个关键词或主题，AI便会迅速为您生成相关内容，让您在短时间内完成写作任务。
利用AI智能写作工具，轻松生成高质量内容。无论是文章、博客还是创意写作，我们的免费 AI 助手都能帮助你提升写作效率，激发灵感。来智语AI体验 ChatGPT中文版，开启你的智能写作之旅！

阿里巴巴AI“狂奔”：通义千问全球下载量破4亿，一周开源三大模型

阿里推出开源模型千问3，通义App全面开启体验新篇章！

阿里全力进军AI领域！挑战GPT-5，争做“安卓第二”的通义千问！

网易引入通义千问，游戏开发效率提升50%！

阿里云通义千问Qwen3-Coder开源发布：力争与Claude Sonnet4平起平坐！

阿里通义千问大模型荣获世界互联网大会领先科技奖，开源创新引领未来

阿里通义千问：Qwen Code每日免费调用高达2000次！

全国首起AI大模型商标侵权案：武汉公司因假冒“通义千问”被判赔23万元

AI助力小说创作：未来作家的新选择！

豆包推出AI播客功能，抢占“耳朵经济”新风口！