赛道Hyper：通义千问发布全新多模态模型Qwen VLo，颠覆人工智能！

没有评论

共计 2045 个字符，预计需要花费 6 分钟才能阅读完成。

作者：周源/华尔街见闻

阿里云在中国的生成式人工智能基础设施领域取得了领先地位。

根据IDC最新发布的报告，2024年中国人工智能基础设施（AI IaaS）市场中，阿里云的市场份额为23%，稳居第一，超越第二和第三名的总和；在生成式人工智能基础设施方面，阿里云在模型训练与推理市场均占据领先地位。

阿里云的生成式推理模型更新频繁，展现出多样化的创新。

6月27日，阿里云的通义千问推出了多模态统一理解与生成模型Qwen VLo，用户可通过Qwen Chat（chat.qwen.ai）进行体验。

这一模型将人工智能的传承与创新相结合，为多模态AI的发展开辟了新的探索方向，具备理解与基于理解进行创造的能力。

Qwen VLo采用渐进式生成技术，从左到右、从上到下逐步构建生成的图像。

在这一过程中，模型会针对预测内容进行动态调整，例如在生成风景图时，首先描绘出山川河流的轮廓，然后细化树木、花草等细节，以确保画面在结构、色彩和语义上达到和谐。

这种生成机制使用户的创作体验更加灵活和可控，设计师在创作海报时，可以实时观察生成过程，及时调整不协调的部分，使最终作品更符合预期。

根据官方说明，Qwen VLo采用动态分辨率训练技术，在生成图像的输入和输出中，均可支持任意分辨率和长宽比。

以往的模型受到固定尺寸和比例的限制，而Qwen VLo则突破了这一局限。用户可以按需生成长宽比为4:1的横幅广告或1:3的社交媒体竖版封面。

通过技术创新，Qwen VLo在图像生成的分辨率和长宽比方面提供了更多选择，电商商家能够快速生成符合不同平台要求的商品展示图，避免繁琐的后期裁剪。

过去多模态模型在生成时常常出现语义不一致的问题，比如将汽车图片错误生成其他物体，或改变原图的关键特征。

Qwen VLo通过增强细节捕捉能力，在生成过程中保持较高的语义一致性。

当用户输入汽车照片并请求“将颜色改为蓝色”时，模型能够准确识别车型，保留车身结构和线条，顺利完成颜色的替换，生成的结果既符合指令，又保持真实感。

这种能力就像达尔文的进化论中物种对环境的精准适应，模型在复杂的图像生成环境中不断进化，以满足多样和精细的用户需求。

用户可以用自然语言对图像提出创意指令，Qwen VLo能够灵活响应。例如，输入“将这张照片的风格变成梵高的画风”或“给图片中的天空加上彩虹”，模型便能完成艺术风格迁移或场景元素添加等操作。

对于“将人物换成卡通形象，背景改为森林，并添加宣传语”这样的复杂指令，模型也能尝试执行。此外，传统的视觉感知任务如深度图预测、图像分割等，也可以通过编辑指令实现。

这一特性体现了“不创新就会被淘汰”的理念，Qwen VLo突破了传统模型指令响应的限制，给予用户更大的操作自由，使其在开放指令编辑中不断进化，以适应迅速发展的AI市场。

Qwen VLo支持包括中文和英文在内的多种语言指令，全球用户无论使用哪种语言，只需简单描述需求，模型便能理解并生成结果。

中国用户用中文输入“生成一张美丽的花朵图片”，而国外用户用英文输入“Generate a picture of beautiful flowers”，都能得到符合要求的图像。

这与美国理性预期学派的领军人物、诺贝尔经济学奖得主托马斯·萨金特（Thomas J. Sargent）提出的开放和自由贸易理念相吻合，通过技术手段打破语言障碍，促进全球用户在图像生成领域的“交流与合作”。

在广告设计行业，设计师常常需要为不同客户和项目迅速产出多样化的设计方案。

借助Qwen VLo，输入“时尚运动品牌的夏季促销海报”，模型能够快速生成多种不同构图和配色的海报草图，设计师可以在此基础上进行完善，从而大幅缩短设计周期。

在包装设计方面，用户只需输入产品特点和目标受众等信息，模型便能生成相应的设计图，提供创意灵感。Qwen VLo为设计师提供了创意迸发的机会，助力他们在市场竞争中取得商业成功。

在教育领域，教师可以利用Qwen VLo将抽象知识可视化。

例如，在地理课上讲解地貌时，输入“生成一张丹霞地貌的图片”，模型能够展示相关的图像，帮助学生直观理解；在语文教学中，讲解古诗词时，输入诗词内容，模型生成诗意场景图，增强学生对诗词意境的感受。

自媒体创作者、博主在创作内容时，需要优质配图来吸引观众。通过Qwen VLo，输入文章主题如“海边度假的旅游攻略”，模型生成相关的海滩和海景图片；在视频制作中，输入视频脚本的关键内容，模型生成视频分镜草图，为拍摄和后期剪辑提供参考，提升内容创作的质量和效率。

在游戏开发中，Qwen VLo能够助力游戏美术资源的制作。游戏设计师只需输入游戏风格和场景设定等指令，模型就可以生成游戏场景、角色和道具等美术素材，从而降低开发成本，加快开发进度。

玩家还可以利用模型生成个性化的游戏场景和角色形象，增加游戏的趣味性。在影视制作中，在前期概念设计阶段，输入故事背景和角色特点等信息，模型生成影视场景概念图和角色概念图，为后续拍摄和特效制作提供指导。

本文来自华尔街见闻，欢迎下载APP查看更多内容。

正文完

Qwen VLo 人工智能多模态模型赛道Hyper 通义千问

发表至：通义千问

2025-10-03

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

通义千问发布Qwen3-Max模型，宣称超越极限的强劲实力！

阿里通义千问推出长期记忆功能，助你“训练”个性化AI助手！

阿里通义千问Qwen3-Max官网上线深度思考功能，开启智能对话新篇章！

AI早讯 | 阿里推出全新多模态大模型Qwen3-Omni，滴滴AI出行助手“小滴”正式公测！

阿里推出史上最大模型“通义千问”，ChatGPT助OpenAI狂揽百亿，科创人工智能ETF（589520）迎来两连涨！

阿里云通义千问紧追OpenAI，继DeepSeek之后的重大突破！

爱彼迎CEO倾心阿里通义千问，抛弃ChatGPT的背后原因揭秘

Airbnb CEO盛赞阿里通义千问：超越OpenAI的性价比之选，硅谷的新宠！

轻松驾驭AI小说大纲：人工填充的技巧与经验分享

赛道Hyper：通义千问发布全新多模态模型Qwen VLo，颠覆人工智能！

轻松搭建你的 AI 助手：保姆级 OpenClaw（原 Clawdbot）飞书对接全攻略

自主编程的 AI 是否会威胁程序员的职业生涯？

文心快码全新升级：研发效率飙升20%，已助力超万家企业！

节后高效编程，文心快码携手双强护航：DeepSeek-V3.2-Exp与GLM-4.6全力加速你的代码之旅！

百度文心快码正式上线，Comate AI IDE强势接入文心4.0 X1 Turbo！

谷歌突袭：大规模封禁OpenClaw用户账号的背后真相

OpenClaw：人工智能代理如何撼动你的职业生涯？

15分钟轻松上手！OpenClaw超级简易安装指南