共计 2751 个字符,预计需要花费 7 分钟才能阅读完成。
随着AI大模型文生图技术的问世,文章配图、宣传活动、短视频封面等方面的需求得到了全新的解决方式,显著提升了工作效率和便利性。本文将对国内几款主流的文生图工具,如即梦、可灵、豆包等进行比较,深入探讨文生图提示词的应用方法,并展示在相同提示词下,各工具生成的效果。

在大模型文生图尚未普及之前,寻找合适的封面图是一项繁琐的工作。我常常需要在浏览器中反复查找,耗费大量时间。有时找到一张看似合适的图片,却因清晰度不足而无法使用,这让配图变得极其困难。若是为了活动设计宣传图,几乎不可能从网上找到满意的素材,往往只能寻求平面设计师的帮助,或是付费委托他人制作。
然而,若设计师正忙于其他项目,排期和沟通的过程又会耗费不少时间。现在,借助AI大模型文生图,文章封面、配图、宣传图、logo以及简单的图片编辑都能迅速完成。最近几个月,我所有文章的封面和配图几乎都是通过AI生成的。

此外,我最近还在制作短视频,封面同样采用AI生成,并且上面还添加了相关文字,这大大简化了我的工作流程。

还有我所需要的商业宣传图文也可以轻松生成。
AI技术助力数字内容创作的新纪元我所制作的智能体所需的数字人像和背景图,往往难以分辨其是否为真实照片或AI生成的作品。这种技术的进步让我们在创作时拥有了更多的可能性。
在探索的过程中,我还在不断尝试其他场景的应用,例如为用户商品设计头图,以及对模特进行服装更换等创意项目。
接下来,我们将进行以下讨论:
a、分析国内常见的文生图工具,探讨它们各自的优缺点;
b、对文生图的提示词使用方法进行简要梳理;
c、最后,我们将使用相同的提示词在不同工具上生成图像,比较结果的效果。
一、国内文生图工具
以下是最新评测的国内主流文生图工具对比表,综合考虑生成质量、功能特点、使用成本及适用场景等多个维度进行分析。
探索文生图提示词的有效构建与生成效果
在很多工具中,用户可以利用基础的免费额度,例如通过积分或灵感值系统进行操作。然而,当需求转向商业用途时,订阅服务往往成为更加必要的选择。以电商运营为例,通义万相(依托于淘宝数据)和可灵AI(提供虚拟试穿功能)便是两个常见的工具。
一、构建提示词
在创建文生图的提示词时,需要全面考虑多个方面。以下是业界普遍认可的一些关键要素。
1. 内容描述要素
主体特征(Subject)
*例子:一名穿着汉服的少女,手握一把油纸伞。核心在于清晰描述人物、动物或物体的具体属性(如年龄、服装、姿势),并加强细节描述,例如材质(陶瓷杯)、状态(热气腾腾)、纹理(毛茸茸)等。
环境与背景(Environment)
*例子:晨曦中的雪山顶端,冰晶装饰的松枝。物理场景可涵盖室内、室外、自然景观(如雪山、森林)、城市街景等,同时动态元素也应考虑,如天气(暴雨或晴天)、光线(霓虹反射或晨光)。
情感与氛围(Mood)
*例子:幽蓝色调下,天地苍茫所营造的孤寂氛围。抽象意境可以表现出孤独感、梦幻感,甚至是赛博朋克式的未来压抑感。
2. 艺术控制要素
风格(Style)
*例子:采用水墨画风格,呈现皮克斯动画的质感。艺术流派包括水墨、浮世绘、赛博朋克、吉卜力等,媒介形式则可选择油画、水彩、3D渲染或摄影写实。
构图与视角(Composition)
*例子:鸟瞰视角与动态构图,留白20%。镜头语言可用广角、微距或俯拍,构图方式可选择中心对称或三分法,主体比例则可选择全身像或半身特写,并控制留白空间。
画质与细节(Quality)
*例子:超写实的细节呈现,焦点清晰,自然光晕效果。技术参数如8K超清、电影级光影、细腻纹理等,光影效果则可包括体积光、丁达尔效应与HDR,此外,还需控制技术优化的维度权重(Weighting)以增强或减弱特定关键词的重要性。
反向提示词(Negative Prompt)可用于排除不需要的元素,如模糊、畸变等,示例包括避免水印、低分辨率等。
结构化公式(万能框架):[主体]+[细节描述]|[环境背景]|[艺术风格]|[情感氛围]|[技术参数]。在编写提示词时,需注意简洁精准,避免冗余,同时确保核心词汇靠前,描述清晰。例如,错误的描述“咖啡”应改为正确的“陶瓷杯装的拿铁,表面有麦穗拉花,热气升腾”。
二、生成效果展示
我们将使用相同的提示词进行生成:
一位年轻漂亮的女士,穿着休闲服,坐在一个复古风格的咖啡馆内的木凳上。她面前的榆木桌上放着一杯陶瓷杯装的拿铁,表面有麦穗拉花,热气袅袅而上。她微微偏头,注视着窗外,夕阳正缓缓下沉,温暖的阳光透过窗户洒在她的脸上,清晰可见她脸上细腻的毫毛。
接下来,打开百度,点击页面顶部的“AI”,选择“AI生图”,在输入框中输入提示词后,稍等片刻即可生成。

以下是生成的效果图:

使用可灵AI,用户只需访问其官网 https://app.klingai.com/cn,在左侧找到图片生成选项,选择左上角的“文生图”,即可将提示词粘贴进去进行生成。
轻松生成图像的全新方法
首先,用户可以访问豆包的官方网站,创建一个新的对话框。在对话框下方,选择“图片生成”功能,便可以开始生成图像。

生成的图像效果不仅出色,还可以进行进一步的编辑,满足不同用户的需求。

与此同时,用户还可以通过即梦AI官方网站,选择“文成图”功能,将提示词粘贴进去,点击生成即可。

在这里,用户同样可以轻松生成各种图像效果。
访问腾讯元宝的官方网站后,用户可以在右侧的输入框中输入提示词,生成的效果如图所示。虽然环境设置真实,但生成的任务却显得有些卡通化。

接下来,我们可以访问通义万相的官网,链接为 https://tongyi.aliyun.com/。在页面左侧,找到图像生成的选项,然后在输入框的左下角切换为图像模式,输入提示词后,效果如下所示。

值得注意的是,第二章中的咖啡杯与输入的提示词不太一致,另外几张图片中的凳子也并非木质,这些都存在问题。此外,该服务是收费的,但注册时会赠送一些积分。

总体而言,虽然多个模型生成的图像大部分都能满足使用需求,但不同模型对提示词的理解和生成效果各异。相对而言,免费的百度和豆包生成的图像表现较为出色。
本文由人人都是产品经理的作者【markzou】创作,微信公众号为【markzou的笔记】。原创内容,未经授权,不得转载。
题图来源于Sora生成的视频截图。
