共计 2505 个字符,预计需要花费 7 分钟才能阅读完成。
随着AI大模型的问世,文生图技术为各类文章、宣传活动及短视频封面提供了创新的解决方案,显著提升了工作效率和便利性。本文将对国内一些主流的文生图工具,如即梦、可灵和豆包等进行比较,探讨文生图的提示词运用方法,并展示在相同提示词下不同工具的生成效果。

在大模型尚未普及之前,寻找合适的文章封面图常常让我耗费不少时间。我需要在浏览器中逐一浏览搜索结果,花费大量精力寻找,虽然偶尔能发现适合的图片,但清晰度往往令人失望,给文章配图实在充满挑战。若是为活动制作宣传图,更是难上加难,几乎无法在网上找到满意的素材,只能依赖平面设计师的帮助,或者花费高额费用请人设计。
若设计师手头有其他项目在做,还需排队等候,这样一来,不仅沟通时间长,最终的成品也常常需要等待。因此,AI大模型的文生图技术改变了这一切,现在我可以轻松制作文章封面、配图、宣传图、logo,甚至进行简单的图片编辑。最近几个月,我的所有文章封面和插图都是依赖于AI生成的。

除此之外,我最近还在制作短视频,其封面同样是由AI生成的,且上面还附有相关文字,

此外,我也在进行商业宣传的图文设计。

我制作的数字人物形象和背景图像,往往让人难以分辨它们是照片还是由AI创造的作品。

我还在积极探索不同场景的可能性,例如为用户的商品设计头图,或者为模特更换服装等。

接下来,我将为大家介绍:
a、国内常见的文生图工具,以及它们的优缺点;
b、对文生图提示词的基本方法进行简要梳理;
c、最后,利用相同的提示词在不同工具上生成图像,观察各自的效果。
一、国内
以下是关于国内主要文生图工具的最新评测对比,分析内容包括生成质量、功能特点、使用成本和适合的使用场景等多个维度:
创意图像生成:从提示词到效果展现的全流程解析在如今的创作工具中,许多平台都提供了基础的免费使用额度,例如通过积分制的即梦或通义灵感值。然而,对于频繁需要商用的用户,订阅服务成为了必然选择。此外,电商运营方面,通义万相(依托淘宝数据)和可灵AI(虚拟试穿)等工具,都是非常受欢迎的选择。
一、提示词的构建
在创建文生图的过程中,提示词的设计需要从多个维度进行系统性的思考。以下是基于行业主流经验总结出的几个关键要素。
1. 内容描述维度
主体(Subject)
例如:一位身穿汉服的少女,手握油纸伞。核心在于清晰地描述人物、动物或物体的特征,包括年龄、服饰及姿态等。细节方面,可以考虑材质(如陶瓷杯)、状态(热气腾腾)和纹理(毛茸茸)。
环境与背景(Environment)
例如:晨曦中的雪山之巅,冰晶覆盖的松枝。考虑物理场景的设置,如室内外环境、自然景观(雪山或森林),以及城市街景等。同时,动态元素如天气(暴雨或晴天)和光线(霓虹反射或晨光)也不可忽视。
情感与氛围(Mood)
例如:幽蓝色调下,天地苍茫的孤寂感。这里可以探索一些抽象的意境,包括孤寂感、梦幻氛围或赛博朋克式的未来压抑感。
2. 艺术控制维度
风格(Style)
例如:水墨画风格或皮克斯动画质感。可以参考的艺术流派包括水墨画、浮世绘、赛博朋克以及吉卜力风格等,媒介形式则涵盖油画、水彩、3D渲染与摄影写实等。
构图与视角(Composition)
例如:采用鸟瞰视角和动态构图,留白比例设计为20%。镜头语言可以使用广角、微距或俯拍,同时使用中心对称或三分法构图,并注意主体比例的平衡。
画质与细节(Quality)
例如:追求超写实的细节与清晰的焦点,强调自然光晕效果。技术参数方面,8K超高清和电影级光影效果是理想选择,此外,体积光和丁达尔效应等光影效果也可作为参考。
3. 生成效果
我们可以通过相同的提示词生成图像,这里有一个具体的示例:
一位年轻貌美的女士,穿着休闲,坐在复古风格的咖啡馆木凳上,眼前的榆木桌上放着一杯陶瓷杯装的拿铁,上面有麦穗拉花,热气在杯面上升腾。她微微侧头,目光投向窗外的落日,阳光透过窗户洒在她的脸上,清晰可见她面庞上的细腻毫毛。
要生成这样的图像,用户只需在百度上找到“AI生图”选项,输入相应的提示词,等待系统生成结果即可。
以下是生成的效果图:

对于可灵AI,用户可以访问其官网 https://app.klingai.com/cn,在页面左侧选择“图片生成”,然后进入顶部的“文生图”选项,输入提示词即可开始生成。
如何利用AI技术轻松生成图片?
首先,用户需要访问豆包的官方网站。接着,新建一个对话框,并在对话框下方找到“图片生成”选项,点击进入即可。

随后,系统会生成相应的效果图,用户还可以对生成的图像进行进一步编辑和调整,以满足个人需求。

同样,用户也可以访问即梦AI官网。在页面顶部找到“文生图”功能,将所需的提示词粘贴进去,然后点击生成按钮。

在此过程中,用户同样可以获得生成的效果图。

首先,访问腾讯元宝的官方网站,找到相关的功能选项。在右侧的输入框中填写所需的提示词,生成的效果图如上所示。尽管场景显得真实,但任务的表现却显得卡通化。

接下来,访问通义万相的官方网站
https://tongyi.aliyun.com/
在左侧菜单中找到生成图像的选项,然后在输入框下方切换为图像模式,接着输入提示词,效果如下。

在生成的第二幅图片中,咖啡杯与提示词并不匹配。此外,多幅图像中的凳子并不是木质的,这也引发了一些问题。同时,这项服务是需要付费的,但注册时会赠送一些积分。

总体来看,虽然多个模型生成的图片大部分都可以使用,但效果因模型而异。与之相比,免费的百度和豆包的表现相对更加出色。
本文由人人都是产品经理的作者【markzou】撰写,微信公众号为:【markzou的笔记】。原创/授权发布于人人都是产品经理,未经允许,严禁转载。
题图来源于Sora生成的视频截图。
