共计 2627 个字符,预计需要花费 7 分钟才能阅读完成。
随着AI大模型文生图的问世,为文章的配图、宣传活动及短视频封面等提供了全新的解决方案,这不仅提升了效率,也带来了极大的便利。本文将对国内一些主流的文生图工具,如即梦、可灵和豆包等进行比较,探讨文生图提示词的相关方法论,并展示在相同提示词下,不同工具所生成的效果。

在大模型生成图像尚未普及之前,为文章寻找合适的封面配图,往往需要在浏览器中反复查找,耗费大量时间。有时虽然找到了一张不错的图片,但其清晰度却令人失望,确实让人感到挫折。若是为活动设计宣传图,更是难上加难,通常只能依赖平面设计师,或者花钱在网上寻找专业人士进行定制。
若设计师手头有其他项目,也需要排期,沟通时间更是漫长。然而,随着大模型文生图的引入,撰写文章时的封面、配图、宣传材料、LOGO及简单图像编辑等,都可以依靠AI迅速完成。最近几个月,我的文章封面和内部配图均由AI生成。

此外,我最近还在制作短视频,短视频的封面同样是由AI生成的,且封面上还附有相关文字。

还有商业宣传的图文内容


我制作的智能体所需的数字人图像和背景,几乎让人难以分辨是真实照片还是由AI生成的。

其它场景的应用仍在不断探索,例如用户商品的封面图、替换模特服装等。

接下来,我们将:
a、介绍国内常见的文生图工具及其优缺点;
b、对文生图的提示词方法进行简要梳理;
c、最后利用相同提示词在各个工具中生成图片,以便比较效果。
一、国内
以下是最新评测的国内主流文生图工具对比表,从生成质量、功能特色、使用成本和适用场景等多个维度进行分析:
探索国内文生图工具的优势与不足
许多文生图工具都提供了基础的免费使用额度,例如即梦的积分制和通义灵感值。然而,如果需要频繁进行商业使用,通常还是需要订阅付费服务。就电商运营而言,通义万相(依托淘宝数据)和可灵AI(提供虚拟试穿功能)都是值得关注的选择。
二、提示词构建
在构建文生图的提示词时,必须系统性地考虑多个方面。以下是根据行业实践总结出的关键要素。
1、内容描述
主体(Subject):
*示例:一位穿着汉服的年轻女子,手持油纸伞。关键在于明确描绘人物、动物或物体的特征,包括年龄、服饰和姿态等。细节的强化可以涉及材质(如陶瓷杯)、状态(如热气腾腾)、纹理(如毛茸茸的质感)等。
环境与背景(Environment):
*示例:在晨曦照耀下的雪山顶,松枝上覆盖着冰晶。需要考虑物理场景,如室内还是户外,自然景观(例如雪山或森林)或城市街景等,以及动态元素,如天气(暴雨或晴天)和光线(霓虹反射或晨光)。
情感与氛围(Mood):
*示例:幽蓝色调营造出天地苍茫的孤寂感。可以表达抽象意境,如孤独、梦幻或赛博朋克式的未来压抑感。
2、艺术控制
风格(Style):
*示例:采用水墨画风格,呈现皮克斯动画的质感。艺术流派可以是水墨画、浮世绘、赛博朋克或吉卜力风格,而媒介形式则可能包括油画、水彩、3D渲染或摄影写实。
构图与视角(Composition):
*示例:鸟瞰视角,动态构图,留白20%。应考虑镜头语言的选择,如广角、微距或俯拍,以及构图的对称性或三分法,确保主体比例的合理安排。
画质与细节(Quality):
*示例:超写实细节,焦点清晰,营造自然的光晕效果。可选技术参数包括8K超清、电影级光影效果,以及细腻的纹理表现,光影效果如体积光、丁达尔效应等。
反向提示词(Negative Prompt):
需要排除的元素包括模糊、畸变或多余肢体,避免水印和低分辨率等问题。
结构化公式(万能框架):[主体]+[细节描述] | [环境背景] | [艺术风格] | [情感氛围] | [技术参数]。在描述时,简洁精准,避免冗余词汇,确保核心词汇靠前,描述清晰。例如,错误的描述是“咖啡”,而正确的描述应为“陶瓷杯装拿铁,表面有麦穗拉花,热气升腾”。
三、生成效果
我们应用了相同的提示词:
一位年轻貌美的女士,身穿休闲服,坐在一家复古风格的咖啡馆木凳上。她面前的榆木桌上放着一杯陶瓷杯装的拿铁,表面有麦穗拉花,热气袅袅而上。她微微侧头,望向玻璃窗外,窗外的夕阳正在缓缓下沉,阳光透过窗户洒在她的脸庞上,可以清晰地看到她脸上的细微毛发。
在百度中,我们可以轻松找到AI生图功能。只需打开百度,点击顶部的“AI”,然后在输入框上选择“AI生图”,输入提示词后稍等片刻即可。

以下是生成的效果图:

要使用可灵AI,可以访问其官网 https://app.klingai.com/cn,进入后在左侧找到图片生成选项,选择左上角的“文生图”,并将提示词粘贴进去即可。
如何轻松生成AI图像的完整指南
首先,打开豆包的官方网站,创建一个新的对话框。在对话框的下方,您将看到“图片生成”的选项,点击它即可开始。

接下来,您将看到生成的效果图。这些图像还可以进行进一步的编辑,以满足您的需求。

然后,访问即梦AI的官方网站,选择页面顶部的“文成图”选项。将您的提示词粘贴到指定区域,并点击生成按钮。

最后,您将获得生成的效果图,尽情欣赏吧!
探索图像生成工具的使用体验首先,访问腾讯元宝的官方网站,点击相关链接,并在右侧的输入框中输入您的提示词。根据生成的效果图来看,尽管环境的真实感较强,但任务的卡通风格似乎有些欠缺。

接下来,访问通义万相的官方网站,链接为:https://tongyi.aliyun.com/。在页面的左侧找到生成图标,然后将输入框下方的选项切换为“图像”。接着,再次输入提示词,生成的效果如下所示。

需要指出的是,在第二章的图片中,咖啡杯与提示词并不一致;此外,多个图片中的凳子也并非木制,这显示出一些问题。另外,值得注意的是,该工具是收费的,但在注册时会赠送一些积分。

总体而言,虽然各个模型所生成的图片大多可用,但不同模型对提示词的响应效果却存在差异。相比之下,免费的百度和豆包在这方面的表现相对出色。
本文由人人都是产品经理的作者【markzou】撰写,微信公众号为【markzou的笔记】。原创/授权发布于人人都是产品经理,未经许可,禁止转载。
题图来源于Sora生成的视频截图。
