赛道Hyper:通义千问震撼发布多模态模型Qwen VLo!

共计 2206 个字符,预计需要花费 6 分钟才能阅读完成。

作者:周源/华尔街见闻

阿里云在中国的生成式人工智能基础设施中脱颖而出。

最新发布的IDC报告显示,预计到2024年,阿里云在中国人工智能基础设施(AI IaaS)市场的份额将达到23%,排名第一,超越第二和第三名的总和。而在生成式AI基础设施领域,阿里云同样在模型训练和推理市场中双双夺冠。

阿里云在生成式推理模型上频繁迭代,展现出多样化的动作。

6月27日,阿里云推出了多模态统一理解与生成模型Qwen VLo,用户可以通过Qwen Chat(chat.qwen.ai)体验这一新模型。

该模型在人工智能领域兼具传承与创新,为多模态AI的发展开辟了新路径,具备理解能力并能基于此进行再创造。

Qwen VLo采用逐步生成的方式,在创建图像时,从左到右、从上到下逐步完成画面。

在这一过程中,模型不断优化预测内容。例如,在生成风景图时,首先勾画山河的轮廓,接着细化树木和花草的细节,确保画面在结构、色彩和语义上保持和谐。

这种生成机制为用户提供了更灵活和可控的创作体验。设计师在制作海报时,可以实时观察生成的过程,及时调整不和谐的部分,从而使得创作更符合预期。

根据官方介绍,Qwen VLo采用动态分辨率训练技术,支持任意分辨率和长宽比的图像生成,无论是在输入还是输出端。

以往模型常常受限于固定的尺寸和比例,而Qwen VLo则突破了这一局限。用户可以根据需求生成长宽比为4:1的横幅广告或1:3的社交媒体竖版封面。

通过技术创新,Qwen VLo在图像生成的分辨率和长宽比方面提供了更多选择,电商商家可以迅速生成符合不同平台要求的商品展示图,省去繁琐的后期裁剪。

过去的多模态模型在生成时,常常出现语义不一致的问题,例如错误将汽车生成其他物体,或改变原图的关键结构特征。

而Qwen VLo则通过提升细节捕捉能力,保持了较高的语义一致性。

当用户输入汽车的照片并要求“将颜色换成蓝色”时,模型能够准确识别车型,保留车身结构及线条等特征,自然地完成颜色替换,生成的结果既符合用户的要求,又保持真实感。

这一能力就像达尔文进化论中物种对环境的精确适应,模型在复杂的图像生成环境中不断演变,以满足多样化和细致的用户需求。

用户可以用自然语言向Qwen VLo提出创意指令,模型能够灵活响应。例如,输入“把这张照片风格变成梵高的画风”或“给图片中的天空加上彩虹”,模型便能完成艺术风格转移或场景元素的添加。

对于“把人物换成卡通形象,背景改为森林,同时添加宣传语”这类复杂指令,模型也能尝试执行。此外,传统的视觉感知任务,如深度图预测和图像分割,也可以通过编辑指令实现。

这一特性体现了“不创新,就死亡”的理念,Qwen VLo突破了传统模型在指令响应上的局限,为用户提供了更大的操作自由度,使其在开放指令的编辑和修改中不断进化,适应快速发展的人工智能市场。

Qwen VLo支持中文、英文等多种语言的指令。全球用户无论使用何种语言,只需简洁描述需求,模型即可理解并生成结果。

例如,中国用户输入“生成一张美丽的花朵图片”,而国外用户用英文输入“Generate a picture of beautiful flowers”,都能获得符合要求的图像。

这一点与美国理性预期学派的领军人物、诺贝尔经济学奖获得者托马斯•萨金特(Thomas J. Sargent)提出的开放自由贸易理念相一致,通过技术手段打破语言障碍,促进全球用户在图像生成领域的“交流贸易”。

在广告设计行业,设计师常常需要为不同的客户和项目快速生成多种风格的设计方案。

借助Qwen VLo,输入“时尚运动品牌夏季促销海报”,模型便能迅速生成多版不同构图和配色的海报草图,设计师在此基础上进行完善,大大缩短设计周期。

在包装设计方面,用户输入产品特点和目标受众等信息,模型则能生成相应的设计图,激发创意灵感。Qwen VLo为设计师提供了创意裂变的机会,帮助他们在市场竞争中赢得商业利润。

在教育领域,教师可以利用Qwen VLo将抽象知识具象化。

例如,在地理课上讲解地貌时,输入“生成一张丹霞地貌的图片”,模型便能展示相关图片,帮助学生直观理解;而在语文教学中,讲解古诗词时,输入诗词内容,模型可以生成诗意场景图,加深学生对诗词意境的体会。

自媒体创作者和博主在创作内容时,需要优质的配图来吸引受众。通过Qwen VLo,输入文章主题如“旅游攻略之海边度假”,模型便能生成海滩、海景等相关图片;在视频制作中,输入视频脚本的关键信息,模型可生成视频分镜草图,为拍摄和后期剪辑提供参考,提升内容创作的质量和效率。

在游戏开发中,Qwen VLo能够助力游戏美术资源的制作。游戏设计师只需输入游戏风格和场景设定等指令,模型便能生成游戏场景、角色、道具等美术素材,降低开发成本,加速开发进程。

玩家也可以利用该模型生成个性化的游戏场景和角色形象,增加游戏的趣味性。在影视制作中,前期概念设计阶段,输入故事背景和角色特点等信息,模型能够生成影视场景概念图和角色概念图,为后续拍摄和特效制作提供方向。

本文来自华尔街见闻,欢迎下载APP查看更多内容。

来源:今日头条
原文标题:赛道Hyper | 通义千问推出多模态模型Qwen VLo – 今日头条
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-11-13发表,共计2206字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!