共计 2206 个字符,预计需要花费 6 分钟才能阅读完成。
作者:周源/华尔街见闻
阿里云在中国的生成式人工智能基础设施中脱颖而出。
最新发布的IDC报告显示,预计到2024年,阿里云在中国人工智能基础设施(AI IaaS)市场的份额将达到23%,排名第一,超越第二和第三名的总和。而在生成式AI基础设施领域,阿里云同样在模型训练和推理市场中双双夺冠。
阿里云在生成式推理模型上频繁迭代,展现出多样化的动作。
6月27日,阿里云推出了多模态统一理解与生成模型Qwen VLo,用户可以通过Qwen Chat(chat.qwen.ai)体验这一新模型。
该模型在人工智能领域兼具传承与创新,为多模态AI的发展开辟了新路径,具备理解能力并能基于此进行再创造。
Qwen VLo采用逐步生成的方式,在创建图像时,从左到右、从上到下逐步完成画面。
在这一过程中,模型不断优化预测内容。例如,在生成风景图时,首先勾画山河的轮廓,接着细化树木和花草的细节,确保画面在结构、色彩和语义上保持和谐。
这种生成机制为用户提供了更灵活和可控的创作体验。设计师在制作海报时,可以实时观察生成的过程,及时调整不和谐的部分,从而使得创作更符合预期。
根据官方介绍,Qwen VLo采用动态分辨率训练技术,支持任意分辨率和长宽比的图像生成,无论是在输入还是输出端。
以往模型常常受限于固定的尺寸和比例,而Qwen VLo则突破了这一局限。用户可以根据需求生成长宽比为4:1的横幅广告或1:3的社交媒体竖版封面。
通过技术创新,Qwen VLo在图像生成的分辨率和长宽比方面提供了更多选择,电商商家可以迅速生成符合不同平台要求的商品展示图,省去繁琐的后期裁剪。
过去的多模态模型在生成时,常常出现语义不一致的问题,例如错误将汽车生成其他物体,或改变原图的关键结构特征。
而Qwen VLo则通过提升细节捕捉能力,保持了较高的语义一致性。
当用户输入汽车的照片并要求“将颜色换成蓝色”时,模型能够准确识别车型,保留车身结构及线条等特征,自然地完成颜色替换,生成的结果既符合用户的要求,又保持真实感。
这一能力就像达尔文进化论中物种对环境的精确适应,模型在复杂的图像生成环境中不断演变,以满足多样化和细致的用户需求。
用户可以用自然语言向Qwen VLo提出创意指令,模型能够灵活响应。例如,输入“把这张照片风格变成梵高的画风”或“给图片中的天空加上彩虹”,模型便能完成艺术风格转移或场景元素的添加。
对于“把人物换成卡通形象,背景改为森林,同时添加宣传语”这类复杂指令,模型也能尝试执行。此外,传统的视觉感知任务,如深度图预测和图像分割,也可以通过编辑指令实现。
这一特性体现了“不创新,就死亡”的理念,Qwen VLo突破了传统模型在指令响应上的局限,为用户提供了更大的操作自由度,使其在开放指令的编辑和修改中不断进化,适应快速发展的人工智能市场。
Qwen VLo支持中文、英文等多种语言的指令。全球用户无论使用何种语言,只需简洁描述需求,模型即可理解并生成结果。
例如,中国用户输入“生成一张美丽的花朵图片”,而国外用户用英文输入“Generate a picture of beautiful flowers”,都能获得符合要求的图像。
这一点与美国理性预期学派的领军人物、诺贝尔经济学奖获得者托马斯•萨金特(Thomas J. Sargent)提出的开放自由贸易理念相一致,通过技术手段打破语言障碍,促进全球用户在图像生成领域的“交流贸易”。
在广告设计行业,设计师常常需要为不同的客户和项目快速生成多种风格的设计方案。
借助Qwen VLo,输入“时尚运动品牌夏季促销海报”,模型便能迅速生成多版不同构图和配色的海报草图,设计师在此基础上进行完善,大大缩短设计周期。
在包装设计方面,用户输入产品特点和目标受众等信息,模型则能生成相应的设计图,激发创意灵感。Qwen VLo为设计师提供了创意裂变的机会,帮助他们在市场竞争中赢得商业利润。
在教育领域,教师可以利用Qwen VLo将抽象知识具象化。
例如,在地理课上讲解地貌时,输入“生成一张丹霞地貌的图片”,模型便能展示相关图片,帮助学生直观理解;而在语文教学中,讲解古诗词时,输入诗词内容,模型可以生成诗意场景图,加深学生对诗词意境的体会。
自媒体创作者和博主在创作内容时,需要优质的配图来吸引受众。通过Qwen VLo,输入文章主题如“旅游攻略之海边度假”,模型便能生成海滩、海景等相关图片;在视频制作中,输入视频脚本的关键信息,模型可生成视频分镜草图,为拍摄和后期剪辑提供参考,提升内容创作的质量和效率。
在游戏开发中,Qwen VLo能够助力游戏美术资源的制作。游戏设计师只需输入游戏风格和场景设定等指令,模型便能生成游戏场景、角色、道具等美术素材,降低开发成本,加速开发进程。
玩家也可以利用该模型生成个性化的游戏场景和角色形象,增加游戏的趣味性。在影视制作中,前期概念设计阶段,输入故事背景和角色特点等信息,模型能够生成影视场景概念图和角色概念图,为后续拍摄和特效制作提供方向。
本文来自华尔街见闻,欢迎下载APP查看更多内容。
