赛道Hyper:通义千问发布全新多模态模型Qwen VLo,颠覆人工智能!

共计 2045 个字符,预计需要花费 6 分钟才能阅读完成。

作者:周源/华尔街见闻

阿里云在中国的生成式人工智能基础设施领域取得了领先地位。

根据IDC最新发布的报告,2024年中国人工智能基础设施(AI IaaS)市场中,阿里云的市场份额为23%,稳居第一,超越第二和第三名的总和;在生成式人工智能基础设施方面,阿里云在模型训练与推理市场均占据领先地位。

阿里云的生成式推理模型更新频繁,展现出多样化的创新。

6月27日,阿里云的通义千问推出了多模态统一理解与生成模型Qwen VLo,用户可通过Qwen Chat(chat.qwen.ai)进行体验。

这一模型将人工智能的传承与创新相结合,为多模态AI的发展开辟了新的探索方向,具备理解与基于理解进行创造的能力。

Qwen VLo采用渐进式生成技术,从左到右、从上到下逐步构建生成的图像。

在这一过程中,模型会针对预测内容进行动态调整,例如在生成风景图时,首先描绘出山川河流的轮廓,然后细化树木、花草等细节,以确保画面在结构、色彩和语义上达到和谐。

这种生成机制使用户的创作体验更加灵活和可控,设计师在创作海报时,可以实时观察生成过程,及时调整不协调的部分,使最终作品更符合预期。

根据官方说明,Qwen VLo采用动态分辨率训练技术,在生成图像的输入和输出中,均可支持任意分辨率和长宽比。

以往的模型受到固定尺寸和比例的限制,而Qwen VLo则突破了这一局限。用户可以按需生成长宽比为4:1的横幅广告或1:3的社交媒体竖版封面。

通过技术创新,Qwen VLo在图像生成的分辨率和长宽比方面提供了更多选择,电商商家能够快速生成符合不同平台要求的商品展示图,避免繁琐的后期裁剪。

过去多模态模型在生成时常常出现语义不一致的问题,比如将汽车图片错误生成其他物体,或改变原图的关键特征。

Qwen VLo通过增强细节捕捉能力,在生成过程中保持较高的语义一致性。

当用户输入汽车照片并请求“将颜色改为蓝色”时,模型能够准确识别车型,保留车身结构和线条,顺利完成颜色的替换,生成的结果既符合指令,又保持真实感。

这种能力就像达尔文的进化论中物种对环境的精准适应,模型在复杂的图像生成环境中不断进化,以满足多样和精细的用户需求。

用户可以用自然语言对图像提出创意指令,Qwen VLo能够灵活响应。例如,输入“将这张照片的风格变成梵高的画风”或“给图片中的天空加上彩虹”,模型便能完成艺术风格迁移或场景元素添加等操作。

对于“将人物换成卡通形象,背景改为森林,并添加宣传语”这样的复杂指令,模型也能尝试执行。此外,传统的视觉感知任务如深度图预测、图像分割等,也可以通过编辑指令实现。

这一特性体现了“不创新就会被淘汰”的理念,Qwen VLo突破了传统模型指令响应的限制,给予用户更大的操作自由,使其在开放指令编辑中不断进化,以适应迅速发展的AI市场。

Qwen VLo支持包括中文和英文在内的多种语言指令,全球用户无论使用哪种语言,只需简单描述需求,模型便能理解并生成结果。

中国用户用中文输入“生成一张美丽的花朵图片”,而国外用户用英文输入“Generate a picture of beautiful flowers”,都能得到符合要求的图像。

这与美国理性预期学派的领军人物、诺贝尔经济学奖得主托马斯·萨金特(Thomas J. Sargent)提出的开放和自由贸易理念相吻合,通过技术手段打破语言障碍,促进全球用户在图像生成领域的“交流与合作”。

在广告设计行业,设计师常常需要为不同客户和项目迅速产出多样化的设计方案。

借助Qwen VLo,输入“时尚运动品牌的夏季促销海报”,模型能够快速生成多种不同构图和配色的海报草图,设计师可以在此基础上进行完善,从而大幅缩短设计周期。

在包装设计方面,用户只需输入产品特点和目标受众等信息,模型便能生成相应的设计图,提供创意灵感。Qwen VLo为设计师提供了创意迸发的机会,助力他们在市场竞争中取得商业成功。

在教育领域,教师可以利用Qwen VLo将抽象知识可视化。

例如,在地理课上讲解地貌时,输入“生成一张丹霞地貌的图片”,模型能够展示相关的图像,帮助学生直观理解;在语文教学中,讲解古诗词时,输入诗词内容,模型生成诗意场景图,增强学生对诗词意境的感受。

自媒体创作者、博主在创作内容时,需要优质配图来吸引观众。通过Qwen VLo,输入文章主题如“海边度假的旅游攻略”,模型生成相关的海滩和海景图片;在视频制作中,输入视频脚本的关键内容,模型生成视频分镜草图,为拍摄和后期剪辑提供参考,提升内容创作的质量和效率。

在游戏开发中,Qwen VLo能够助力游戏美术资源的制作。游戏设计师只需输入游戏风格和场景设定等指令,模型就可以生成游戏场景、角色和道具等美术素材,从而降低开发成本,加快开发进度。

玩家还可以利用模型生成个性化的游戏场景和角色形象,增加游戏的趣味性。在影视制作中,在前期概念设计阶段,输入故事背景和角色特点等信息,模型生成影视场景概念图和角色概念图,为后续拍摄和特效制作提供指导。

本文来自华尔街见闻,欢迎下载APP查看更多内容。

正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-03发表,共计2045字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!