共计 2550 个字符,预计需要花费 7 分钟才能阅读完成。
近年来,AI大模型生成图像技术的出现,为文章插图、营销活动及短视频封面等提供了全新的解决方案,显著提升了工作效率和便利性。本文将比较国内主流的文生图工具,如即梦、可灵和豆包,探讨文生图的提示词策略,并展示不同工具在相同提示词下的效果。

在大模型图像生成技术尚未问世之前,为了找到合适的封面图,我常常需要在浏览器中逐一查看搜索结果,费时费力。有时候找到了一张符合要求的图片,却因清晰度不足而无法使用,给文章配图带来了不少困难。若是为了活动制作宣传图,几乎不可能从网上找到理想的素材,通常只能请平面设计师帮忙,或者在网上寻找报价。
即便是请设计师,往往还需要排期,这样的沟通和等待都让人觉得相当耗时。然而,随着大模型文生图的出现,文章封面的设计、插图、宣传图、Logo,以及简单的图像编辑,都可以通过AI轻松完成。在过去几个月里,我的文章封面及内部配图几乎都是由AI生成的。

同时,我最近也在制作短视频,封面同样是通过AI生成的,且上面还附有相关文字。

此外,还有商业宣传的图文内容。

我所创建的智能体所需的数字人形象和背景图,令人难以分辨哪些是真实照片,哪些是AI生成的。

此外,我还在探索其他各种场景,比如用户商品的主图,给模特更换服装等。

接下来的内容安排如下:
a、我们将介绍国内常见的文生图工具及其各自的优缺点;
b、随后,我们会对文生图的提示词策略进行简要梳理;
c、最后,使用相同的提示词在不同工具上生成图片,观察其效果。
一、国内工具概述
以下是最新评测的国内主流文生图工具对比表,涵盖生成质量、功能特点、使用成本及适用场景等多个维度。
全面解析文生图生成工具的提示词策略在现今市场上,众多文生图工具纷纷推出,通常提供一定的免费使用额度(如积分制或灵感值),但若需要频繁商用则必须订阅相关服务。例如,通义万相(依托淘宝数据)和可灵AI(提供虚拟试穿功能)都是非常受欢迎的选择。
一、提示词的构建要素
为了有效构建文生图的提示词,我们需要从多个维度进行系统分析。以下是根据行业主流实践整理出的关键要素:
1. 内容描述
主体(Subject):
- 示例:一位身穿汉服的少女,手握油纸伞。
- 核心对象:清晰界定人物、动物或物体的特征,例如年龄、服饰、姿态等。
- 细节强化:可包含材质(如陶瓷杯)、状态(热气腾腾)及纹理(毛茸茸)等信息。
环境与背景(Environment):
- 示例:晨曦中的雪山顶,冰晶覆盖松枝。
- 物理场景:区分室内与室外,自然景观(如雪山或森林)、城市街景等。
- 动态元素:考虑天气(如暴雨或晴天)、光线(如霓虹反射或晨光)等。
情感与氛围(Mood):
- 示例:幽蓝色调,营造出苍茫的孤寂气氛。
- 抽象意境:传达孤寂感、梦幻感或赛博朋克式的压抑感。
2. 艺术控制
风格(Style):
- 示例:水墨画风格,带有皮克斯动画的质感。
- 艺术流派:可选择水墨画、浮世绘、赛博朋克或吉卜力风格。
- 媒介形式:如油画、水彩、3D渲染或摄影写实等。
构图与视角(Composition):
- 示例:采用鸟瞰视角,动态构图,留白20%。
- 镜头语言:可使用广角、微距或俯拍,采用中心对称或三分法构图。
- 主体比例:分全身像与半身特写,控制留白空间。
画质与细节(Quality):
- 示例:超写实细节,焦点清晰,自然光晕效果。
- 技术参数:如8K超清、电影级光影及细腻纹理等。
- 光影效果:可考虑体积光、丁达尔效应及HDR等。
反向提示词(Negative Prompt):
- 排除模糊、畸变、多余肢体及文字等元素。
- 示例:避免出现水印、低分辨率等问题。
结构化公式(万能框架):
- [主体]+[细节描述]|[环境背景]|[艺术风格]|[情感氛围]|[技术参数]
注意要点:保持描述简洁精准,避免冗余,核心词应置前,确保描述清晰。
二、生成效果展示
使用以下提示词生成的效果:
一位年轻貌美的女士,穿着休闲,坐在复古风格的咖啡馆木凳上,面前的榆木桌上放着一杯陶瓷杯装的拿铁,表面有麦穗拉花,热气升腾。她微微偏头,望向窗外,夕阳正缓缓下落,阳光透过窗户洒在她的脸上,可以看到她脸上细微的毫毛。
在百度中打开页面,点击顶部的“AI”选项,然后选择“AI生图”功能,在输入框中输入提示词,稍等片刻即可生成图像。
以下是生成的效果图:

可灵AI的使用方式:访问可灵AI官网 https://app.klingai.com/cn,在左侧找到“图片生成”选项,选择左上角的“文生图”,将提示词粘贴进去即可。
首先,访问豆包的官方网站,创建一个新的对话。接着,在对话框下方找到“图片生成”选项并进行选择。

完成后,您将看到生成的效果图。此外,这些效果图还可以进行进一步的编辑和调整。

对于使用即梦AI,只需访问其官网,选择“文成图”选项,然后将您想要的提示词粘贴进去,最后点击生成按钮。

最后,您也可以生成出想要的效果图。
探索图像生成工具的使用体验

首先,访问腾讯元宝的官方网站,找到相关链接后,在右侧的输入框中填入所需的提示词。生成的效果图如图所示,这种呈现方式虽然真实,但所生成的任务图案却显得十分卡通化。

接下来,访问通义万相官网
https://tongyi.aliyun.com/
在页面的左侧,找到生成图标,并在下方输入框中选择图像选项,接着输入提示词,生成结果如下所示。

值得注意的是,第二章的咖啡杯与提示词并不一致,而其他几张图片中的凳子也并非木制,这些都存在问题。此外,该工具使用时需要收费,但注册后会赠送一些积分。

总体来说,虽然大部分模型能够生成可用的图片,但不同模型对于提示词的响应效果却各有差异。而相对而言,免费的百度和豆包的表现还是相对不错的。
本文由人人都是产品经理的作者【markzou】创作,微信公众号为:【markzou的笔记】。该内容为原创/授权,发布于人人都是产品经理,未经许可,严禁转载。
题图来源于Sora生成的视频截图
