共计 2649 个字符,预计需要花费 7 分钟才能阅读完成。
随着AI大模型文生图的问世,它为文章插图、推广活动及短视频封面等方面提供了创新的解决方案,显著提升了工作效率和操作便利性。本文旨在对国内流行的文生图工具进行比较,如即梦、可灵和豆包等,并探讨提示词的使用方法,展示不同工具在相同提示条件下的生成效果。

在大模型文生图普及之前,为了找到合适的文章封面图,我常常需要在浏览器里反复查找,费时费力。有时虽然找到了一张合适的图片,但其清晰度却令人失望,给文章配图的过程确实困难重重。如果是为活动制作宣传图,那几乎没有可能在网络上找到合适的素材,通常只能求助于专业设计师,或花钱寻找外包服务。
若设计师手头工作繁忙,还得排时间,这样一来沟通和等待的成本都相对较高。然而,现如今借助大模型文生图,文章的封面、配图、宣传图、标志以及简单的图像编辑都能够轻松由AI完成。最近几个月,我的文章封面和内部插图均由AI生成,效果令人满意。

此外,我近期也在制作短视频,短视频的封面同样是由AI生成的,并且上面还添加了相关文字。

还有商业宣传相关的图文资源。

为了制作智能代理,我需要使用一些数字人像和背景图,这些图像的真实与否难以分辨,可能是照片也可能是AI创造的。

此外,我还在不断尝试其他场景的应用,例如为用户的商品设计头图,或者为模特更换服装等。

接下来,让我们一起探讨:
a、国内目前有哪些常见的文生图生成工具,它们的特点和不足之处;
b、随后我们将对文生图的提示词方法进行简要梳理;
c、最后,我们会利用相同的提示词在不同工具中生成图片,评估其效果。
一、国内
以下是国内主流文生图工具的最新评估对比,从生成质量、功能特点、使用成本以及适用场景等多个维度进行分析:
文生图工具的使用与提示词构建指南在使用文生图工具时,许多平台都提供了基本的免费额度,例如即梦积分制或通义灵感值。然而,对于频繁的商业需求,用户仍需考虑订阅服务。
在电商运营方面,通义万相依托于淘宝数据,而可灵AI则提供虚拟试穿的功能,满足用户的不同需求。
一、提示词构建
构建文生图的提示词时,需要系统性地考虑多个维度。以下是根据行业主流实践总结的关键要素:
1、内容描述
主体(Subject):
例如:一位穿着汉服的少女手持油纸伞。核心在于明确描述对象的特征,包括年龄、服饰和姿态等。细节方面可涉及材质(如陶瓷杯)、状态(如热气腾腾)和纹理(如毛茸茸的表面)等。
环境与背景(Environment):
例如:晨曦中的雪山,冰晶覆盖松枝。要描述物理场景,如室内或室外、自然景观(如雪山或森林)以及城市街景等。动态元素包括天气(如暴雨或晴天)和光线(如霓虹反射或晨光)。
情感与氛围(Mood):
例如:幽蓝色调中呈现出苍茫的孤寂。可以探讨抽象意境,如孤寂感、梦幻感以及赛博朋克式的未来压抑感。
2、艺术控制
风格(Style):
例如:水墨画风格或皮克斯动画质感。艺术流派包括水墨画、浮世绘、赛博朋克和吉卜力风格等。媒介形式则涉及油画、水彩、3D渲染等。
构图与视角(Composition):
例如:鸟瞰视角与动态构图,留白20%。镜头语言可以采用广角、微距或俯拍,构图方式如中心对称或三分法则。
画质与细节(Quality):
例如:超写实的细节和清晰的焦点。技术参数包括8K超清画质、电影级光影以及细腻的纹理。光影效果可通过体积光、丁达尔效应和HDR等技术实现。
对于反向提示词(Negative Prompt),应排除模糊、畸变、冗余肢体或文字等元素。示例:避免水印和低分辨率。
结构化公式(万能框架):
[主体]+[细节描述] | [环境背景] | [艺术风格] | [情感氛围] | [技术参数]。注意简洁精准,避免冗余词,核心词应放在前面,描述要清晰明了。
例如:错误的描述是“杯咖啡”,而正确的应为“陶瓷杯装的拿铁,上面有麦穗拉花,热气升腾”。
二、生成效果
接下来,我们使用相同的提示词进行生成:
一位年轻的美女,穿着休闲服,坐在复古风格的咖啡馆木凳上。她面前的榆木桌上放着一杯陶瓷杯装的拿铁,表面有麦穗拉花,热气升腾。她微微偏头望向窗外,窗外的夕阳正在下沉,阳光透过窗户洒在她的脸上,可以清晰地看到她脸上的细腻毫毛。
在百度上,用户只需点击顶部的“AI”选项,选择“AI生图”并输入提示词,等待几秒钟即可获得生成效果。

以下是生成的效果图:

此外,用户可以通过访问可灵AI官网(https://app.klingai.com/cn),找到图片生成选项,然后选择顶部的“文生图”,将提示词粘贴进去即可。
要使用豆包,首先访问豆包的官方网站,接着创建一个新的对话框。在对话框的下方,您可以找到“图片生成”选项并进行选择。
在您完成这一步后,系统将生成效果图,值得一提的是,这些图像还可以进行后续编辑和修改,以达到您想要的效果。
如果您选择即梦AI,只需打开其官网,在页面顶部找到“文生图”功能,将您的提示词粘贴进去,之后点击生成按钮即可。
如此一来,您就能轻松获取生成的效果图,享受AI带来的便利了。
首先,用户可以访问腾讯元宝的官方网站,通过点击相关链接进入。在右侧的输入框中输入相应的提示词,生成的效果如图所示。然而,这种效果并不理想,尽管背景真实,任务却显得略显卡通化。

接下来,我们可以访问通义万相的官网,链接为 https://tongyi.aliyun.com/。在页面的左侧找到生成图像的选项。在输入框下方的左侧,需要将模式切换为图像生成,然后输入提示词,最终效果如图所示。

需要指出的是,第二章的图像中,咖啡杯与提示词之间存在不一致的情况。此外,几张图片中的凳子也并非木制,明显有问题。同时,该服务为收费项目,注册时会赠送一些积分。

总体来看,多个模型生成的图像大部分是可用的,但各模型对提示词的处理效果却有所不同。相比之下,免费的百度和豆包的表现相对不错。
本文由人人都是产品经理的作者【markzou】撰写,并通过微信公众号【markzou的笔记】发布,属于原创作品,未经授权禁止转载。
题图来源于Unsplash,基于CC0协议。
