赛道Hyper：通义千问震撼发布多模态模型Qwen VLo！

没有评论

共计 2206 个字符，预计需要花费 6 分钟才能阅读完成。

作者：周源/华尔街见闻

阿里云在中国的生成式人工智能基础设施中脱颖而出。

最新发布的IDC报告显示，预计到2024年，阿里云在中国人工智能基础设施（AI IaaS）市场的份额将达到23%，排名第一，超越第二和第三名的总和。而在生成式AI基础设施领域，阿里云同样在模型训练和推理市场中双双夺冠。

阿里云在生成式推理模型上频繁迭代，展现出多样化的动作。

6月27日，阿里云推出了多模态统一理解与生成模型Qwen VLo，用户可以通过Qwen Chat（chat.qwen.ai）体验这一新模型。

该模型在人工智能领域兼具传承与创新，为多模态AI的发展开辟了新路径，具备理解能力并能基于此进行再创造。

Qwen VLo采用逐步生成的方式，在创建图像时，从左到右、从上到下逐步完成画面。

在这一过程中，模型不断优化预测内容。例如，在生成风景图时，首先勾画山河的轮廓，接着细化树木和花草的细节，确保画面在结构、色彩和语义上保持和谐。

这种生成机制为用户提供了更灵活和可控的创作体验。设计师在制作海报时，可以实时观察生成的过程，及时调整不和谐的部分，从而使得创作更符合预期。

根据官方介绍，Qwen VLo采用动态分辨率训练技术，支持任意分辨率和长宽比的图像生成，无论是在输入还是输出端。

以往模型常常受限于固定的尺寸和比例，而Qwen VLo则突破了这一局限。用户可以根据需求生成长宽比为4:1的横幅广告或1:3的社交媒体竖版封面。

通过技术创新，Qwen VLo在图像生成的分辨率和长宽比方面提供了更多选择，电商商家可以迅速生成符合不同平台要求的商品展示图，省去繁琐的后期裁剪。

过去的多模态模型在生成时，常常出现语义不一致的问题，例如错误将汽车生成其他物体，或改变原图的关键结构特征。

而Qwen VLo则通过提升细节捕捉能力，保持了较高的语义一致性。

当用户输入汽车的照片并要求“将颜色换成蓝色”时，模型能够准确识别车型，保留车身结构及线条等特征，自然地完成颜色替换，生成的结果既符合用户的要求，又保持真实感。

这一能力就像达尔文进化论中物种对环境的精确适应，模型在复杂的图像生成环境中不断演变，以满足多样化和细致的用户需求。

用户可以用自然语言向Qwen VLo提出创意指令，模型能够灵活响应。例如，输入“把这张照片风格变成梵高的画风”或“给图片中的天空加上彩虹”，模型便能完成艺术风格转移或场景元素的添加。

对于“把人物换成卡通形象，背景改为森林，同时添加宣传语”这类复杂指令，模型也能尝试执行。此外，传统的视觉感知任务，如深度图预测和图像分割，也可以通过编辑指令实现。

这一特性体现了“不创新，就死亡”的理念，Qwen VLo突破了传统模型在指令响应上的局限，为用户提供了更大的操作自由度，使其在开放指令的编辑和修改中不断进化，适应快速发展的人工智能市场。

Qwen VLo支持中文、英文等多种语言的指令。全球用户无论使用何种语言，只需简洁描述需求，模型即可理解并生成结果。

例如，中国用户输入“生成一张美丽的花朵图片”，而国外用户用英文输入“Generate a picture of beautiful flowers”，都能获得符合要求的图像。

这一点与美国理性预期学派的领军人物、诺贝尔经济学奖获得者托马斯•萨金特（Thomas J. Sargent）提出的开放自由贸易理念相一致，通过技术手段打破语言障碍，促进全球用户在图像生成领域的“交流贸易”。

在广告设计行业，设计师常常需要为不同的客户和项目快速生成多种风格的设计方案。

借助Qwen VLo，输入“时尚运动品牌夏季促销海报”，模型便能迅速生成多版不同构图和配色的海报草图，设计师在此基础上进行完善，大大缩短设计周期。

在包装设计方面，用户输入产品特点和目标受众等信息，模型则能生成相应的设计图，激发创意灵感。Qwen VLo为设计师提供了创意裂变的机会，帮助他们在市场竞争中赢得商业利润。

在教育领域，教师可以利用Qwen VLo将抽象知识具象化。

例如，在地理课上讲解地貌时，输入“生成一张丹霞地貌的图片”，模型便能展示相关图片，帮助学生直观理解；而在语文教学中，讲解古诗词时，输入诗词内容，模型可以生成诗意场景图，加深学生对诗词意境的体会。

自媒体创作者和博主在创作内容时，需要优质的配图来吸引受众。通过Qwen VLo，输入文章主题如“旅游攻略之海边度假”，模型便能生成海滩、海景等相关图片；在视频制作中，输入视频脚本的关键信息，模型可生成视频分镜草图，为拍摄和后期剪辑提供参考，提升内容创作的质量和效率。

在游戏开发中，Qwen VLo能够助力游戏美术资源的制作。游戏设计师只需输入游戏风格和场景设定等指令，模型便能生成游戏场景、角色、道具等美术素材，降低开发成本，加速开发进程。

玩家也可以利用该模型生成个性化的游戏场景和角色形象，增加游戏的趣味性。在影视制作中，前期概念设计阶段，输入故事背景和角色特点等信息，模型能够生成影视场景概念图和角色概念图，为后续拍摄和特效制作提供方向。

本文来自华尔街见闻，欢迎下载APP查看更多内容。

来源：今日头条

原文标题：赛道Hyper | 通义千问推出多模态模型Qwen VLo – 今日头条

原文链接：https://www.toutiao.com/article/7521941785367659023/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

Qwen VLo 人工智能多模态模型赛道Hyper 通义千问

发表至：通义千问

2025-11-13

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

阿里推出全球顶尖开源模型千问3，通义App迅速上线体验！

阿里通义千问 Qwen 以22.32%收益率赢得AI大模型投资比赛冠军！

阿里云重磅推出通义千问旗舰版模型Qwen2.5-Max，颠覆智能问答新时代！

阿里云通义千问Qwen3-Coder开源发布：力争与Claude Sonnet4平起平坐！

阿里云通义千问紧追OpenAI，继DeepSeek之后的重大突破！

通义千问夜间升级！Qwen3引领“分离训练”新时代，性能全面超越Kimi-K2，Agent实力大放异彩 – 今日头条

阿里巴巴CEO吴泳铭：通义千问力图成为“AI时代的安卓”革新者

阿里推出通义千问Qwen3-Max：万亿参数AI大模型震撼发布！

ai写作何以成为未来创作的新宠？搜狗在背后做了哪些努力？

赛道Hyper：通义千问震撼发布多模态模型Qwen VLo！

「突破性进展：AI系统首度实现自我编程，轻松超越初级程序员」

你发现了吗？Trae SOLO Builder总是积极揽活，而Coder虽然能力一般却显得格外懒惰！

字节推出AI IDE工具Trae，能否撼动Cursor的市场地位？程序员安仔深度解析！

轻松搭建你的 AI 助手：保姆级 OpenClaw（原 Clawdbot）飞书对接全攻略！

选择最佳IDE，优缺点大比拼！

字节跳动Trae国内版与Cursor对比：优缺点全解析！

掌握人工智能：新手必读的入门指南

暑假项目规划：AI编程助手大比拼，Cursor、Trae哪个更胜一筹？