共计 2516 个字符,预计需要花费 7 分钟才能阅读完成。
随着AI大模型文生图技术的问世,文章配图、宣传材料、短视频封面等领域得到了一种全新的解决方案,极大地提升了工作效率和便利性。本文将对国内几款主流文生图工具如即梦、可灵、豆包等进行比较,同时探讨文生图提示词的相关方法,并展示不同工具在相同提示词下的生成效果。
在大模型生图尚未普及之前,寻找合适的封面配图是一项繁琐的工作。为了找到一张满意的图片,我常常需要在浏览器中不断翻找,浪费了大量时间。即便找到一张看似合适的图,清晰度往往又不尽如人意。这对于活动宣传图的需求更是无能为力,我只能依赖平面设计师,或者花费不菲的费用在外寻找解决方案。
如果设计师手头有其他项目,排期会变得更为复杂,沟通和等待都需要耗费不少时间。然而,现在有了AI大模型文生图的助力,文章封面、配图、宣传活动、logo设计以及简单的图像编辑都可以通过AI轻松完成。最近几个月,我的文章封面和内部配图几乎都是通过AI生成的。
此外,我最近也在制作短视频,封面图同样是AI生成的,并且还包含了相关文字信息。
还有一些商业宣传所需的图文内容。
我自己制作的一些数字人像或背景图片,这些人像几乎无法判断是真实的照片还是AI生成的。
此外,我还在不断探索其他场景的应用,比如为用户商品制作头图、给模特更换服装等。
接下来,我们将:
a、为大家介绍国内常见的文生图工具及其优缺点;
b、对文生图提示词的方法论进行简要梳理;
c、最后使用相同的提示词在不同工具上生成图像,观察效果。
一、国内
以下是最新评测的国内主流文生图工具对比表,从生成质量、功能特性、使用成本及适用场景等方面进行分析:
高效生成图像的策略与技巧
许多工具在基础功能上都提供免费使用额度,比如即梦的积分系统和通义灵感值。不过,对于商用的高频需求,通常需要付费订阅。
一、提示词构建
在构建文生图的提示词时,必须系统地考虑多个方面。以下是行业内主流实践总结出的关键要素:
1. 内容描述
主角(Subject)
*示例:手持油纸伞的汉服少女核心对象:明确描述人物、动物或物体的特征(如年龄、服饰、姿势)细节强化:包含材质(如陶瓷杯)、状态(如热气腾腾)、纹理(如毛茸茸)等
环境与背景(Environment)
*示例:晨曦中雪山的顶端,冰晶覆盖的松枝物理场景:室内或室外、自然景观(如雪山或森林)、城市街道等动态元素:天气(如暴雨或晴天)、光线(如霓虹反射或晨光)
情感与氛围(Mood)
*示例:幽蓝色调,渲染出天地苍茫的孤寂气氛抽象意境:孤寂、梦幻或赛博朋克风格的未来感
2. 艺术控制
风格(Style)
*示例:水墨画风格,皮克斯动画质感艺术流派:水墨画、浮世绘、赛博朋克、吉卜力风格媒介类型:油画、水彩、3D渲染、摄影写实
构图与视角(Composition)
*示例:鸟瞰视角,动态构图,留白20%镜头语言:广角或微距,俯拍、中心对称或三分法构图主体比例:全身像或半身特写、留白空间控制
画质与细节(Quality)
*示例:超写实细节,焦点清晰,自然光晕技术参数:8K超清、电影级光影、细腻纹理光影效果:体积光、丁达尔效应、HDR3、技术优化维度权重控制(Weighting)增强符号:[关键词]提升重要性,减弱符号:[关键词]降低存在感
反向提示词(Negative Prompt)排除元素:模糊、畸变手、多余肢体、文字 *示例:避免水印、低分辨率
3. 结构化公式(万能框架)[主体]+[细节描述] | [环境背景] | [艺术风格] | [情感氛围] | [技术参数] 注意点简洁精准:避免冗余词,核心词靠前描述清晰:将模糊描述转为具体特征*示例:错误❌“一杯咖啡” → 正确✅“陶瓷杯装拿铁,表面有麦穗拉花,热气升腾”
二、生成效果示例
我们使用相同的提示词:
一位年轻貌美的女士,穿着休闲,坐在一个复古风格的咖啡馆的木凳上。她面前的榆木桌上放着一杯陶瓷杯装的拿铁,表面有麦穗拉花,热气升腾。她微微偏头望向窗外,夕阳西沉,阳光透过窗户洒在她的脸上,清晰可见她脸上的细腻毫毛。
打开百度,点击顶部的“AI”,选择“AI生图”,在输入框中输入提示词并等待几秒钟即可生成。
以下是生成的效果图:
接下来,访问可灵AI的官网 https://app.klingai.com/cn,在左侧找到图片生成,选择左上角的“文生图”,将提示词复制进去。
同样,访问豆包官网,新建对话,选择对话框下的“图片生成”。
生成的效果图还可以进一步编辑,以满足更多的需求。
最后,前往即梦AI官网,在顶部选择文成图,复制提示词后点击生成,即可获得您想要的图像。
在当前的数字时代,图像生成工具逐渐成为人们创造视觉内容的重要手段。通过简单的输入提示,用户可以在短时间内获得令人惊艳的图像效果。这些工具的应用不仅丰富了艺术创作的方式,也为各类项目提供了便利。
以腾讯元宝为例,用户只需访问其官方网站,找到相应的输入框,输入关键词,便可获取生成的图像。尽管其环境模拟真实,但生成的卡通风格任务可能不如预期那般理想。
另一款名为通义万相的工具同样值得关注。用户可以访问其官网(https://tongyi.aliyun.com/),在页面左侧找到生成图标,并将输入模式切换为图像,接着在输入框中添加提示词,就能看到生成结果。然而,某些生成的图像内容与提示之间存在不一致的情况,比如第二章中的咖啡杯与提示词不符,且有些椅子并非木制,显示出一定的局限性。此外,使用该工具需要付费,但注册后会获得一些积分作为奖励。
总体而言,尽管多个模型生成的图像在可用性上表现良好,用户仍需注意不同模型对提示词的响应差异。相较之下,百度和豆包等免费工具的效果相对较好,值得一试。
本文由人人都是产品经理的作者【markzou】撰写,微信公众号为:【markzou的笔记】。该内容为原创或经授权发布于人人都是产品经理,未经许可,禁止转载。
题图来源于Unsplash,采用 CC0 协议。