共计 2664 个字符,预计需要花费 7 分钟才能阅读完成。
大模型的文生图技术为图文结合、推广活动及短视频封面设计等领域开辟了新的途径,显著提升了工作效率和便利性。本文将比较国内知名的文生图工具,例如即梦、可灵和豆包,深入探讨文生图提示词的使用方法,并展示在统一提示词下,不同工具所生成的效果。

在大模型文生图尚未普及之前,寻找合适的封面图片是一项耗时的任务。每当我在浏览器中查找图片时,常常需要花费很长时间翻阅搜索结果,甚至找到了一张合适的图,清晰度却令人失望。若是需要为活动制作宣传图,几乎无法从网上找到满意的素材,通常只能请求平面设计师帮忙,或者花钱委托他人制作。
若设计师手头有其他工作,还得排期,这样一来,沟通和等待的时间也显得格外漫长。然而,自从引入了大模型文生图技术后,封面设计、配图以及活动宣传、简单的图像编辑工作都可以通过AI轻松完成。在过去的几个月里,我的文章封面和内部配图几乎都是依靠AI生成的。

此外,我最近开始制作短视频,短视频的封面同样由AI生成,并且封面上还包含了相关文字。

还有商业宣传的图文作品。


我创建的智能体需要的数字人像及背景图像,通常很难分辨它们是出自真实摄影还是AI生成。

在其他各种场景中,我还在持续探索,例如如何为用户的商品创建头图,或者为模特更换服饰等。

接下来的内容包括:
a、介绍国内一些常见的文生图生成工具,分析它们的优缺点;
b、对文生图提示词的使用方法进行简单梳理;
c、最后利用相同的提示词在不同工具上生成图像,比较它们的效果。
一、国内
下面是最新评测的国内主流文生图工具对比表,分析了生成质量、功能特点、使用成本以及适用场景等多个维度。
探索文生图工具的使用与优化
在众多文生图工具中,许多平台都提供一定的免费使用额度,例如即梦积分制和通义灵感值。然而,对于商业用途频繁的用户,往往需要选择订阅服务。电商运营方面,通义万相借助淘宝数据进行支持,而可灵AI则提供虚拟试穿的功能。
一、提示词的构建
构建文生图的提示词时,需从多个方面进行系统性的考虑,以下是根据行业实践总结的关键要素:
1. 内容描述
主体(Subject)
*示例:一名穿着汉服的少女,手持油纸伞。描述时要明确人物、动物或物体的特征,包括年龄、服饰和姿态等细节,如材质(陶瓷杯)、状态(热气腾腾)、纹理(毛茸茸)等。
环境与背景(Environment)
*示例:晨曦中的雪山顶,冰晶覆盖的松枝。此时需考虑物理场景(室内/室外、自然景观如雪山或森林)、城市街景等,以及动态元素(天气如暴雨或晴天、光线如霓虹反射或晨光)。
情感与氛围(Mood)
*示例:幽蓝的色调,营造出天地苍茫的孤寂感。可以探讨的抽象意境包括孤寂、梦幻以及赛博朋克式的未来压抑感。
2. 艺术控制
风格(Style)
*示例:水墨画风格,皮克斯动画质感。可选择的艺术流派包括水墨画、浮世绘、赛博朋克和吉卜力风格等,而媒介形式可涵盖油画、水彩、3D渲染和摄影写实。
构图与视角(Composition)
*示例:鸟瞰视角,动态构图,留白20%。此部分需注意镜头语言(广角/微距/俯拍、中心对称/三分法构图)和主体比例(全身像/半身特写等)。
画质与细节(Quality)
*示例:超写实的细节,焦点清晰,营造自然光晕。技术参数包括8K超清、电影级光影和细腻的纹理光影效果(体积光、丁达尔效应、HDR)。此外,权重控制(Weighting)可通过增强符号提升某些关键词的重要性,或用减弱符号降低它们的存在感。
反向提示词(Negative Prompt)
需排除的元素包括模糊、畸变手、多余肢体及文字等。*示例:避免出现水印和低分辨率。
3. 结构化公式(万能框架)
提示词可采用以下结构:[主体]+[细节描述] | [环境背景] | [艺术风格] | [情感氛围] | [技术参数]。在描述时应保持简洁精准,避免冗余词,核心词应靠前,确保描述清晰。例如,错误的表达“咖啡”可改为“陶瓷杯装纳铁,表面有麦穗拉花,热气腾腾”。
二、生成效果比较
我们使用相同的提示词进行生成:
一位年轻貌美的女士,穿着休闲,坐在一个复古风格的咖啡馆木凳上,她身前的榆木桌上放着一杯陶瓷杯装的拿铁,表面有麦穗拉花,热气升腾。她微微侧头,目光投向玻璃窗外,窗外的夕阳正在缓缓落下,阳光透过窗户洒在她的脸上,清晰可见她脸上的细腻毫毛。
在百度上打开AI模块,点击“AI生图”,在输入框中键入提示词,稍等片刻即可生成效果。

以下是生成的效果图:

如需使用可灵AI,请访问其官网
https://app.klingai.com/cn,进入后在左侧找到图片生成,选择左上角的“文生图”,并将提示词粘贴进去。
轻松生成图像的步骤详解
访问豆包官网后,我们可以创建一个新的对话。在对话框的下方,找到并点击“图片生成”选项。

等待生成图像后,您还可以对生成的效果进行进一步编辑。

在即梦AI的官网上,选择“文成图”选项,粘贴提示词,随后点击生成即可。

最后,您将获得生成的效果图。
探讨AI图像生成工具的使用与效果
首先,访问腾讯元宝的官方网站,找到指定的区域并在输入框中输入相关提示词。虽然生成的效果如图所示,但值得注意的是,尽管环境背景非常真实,任务的表现却显得十分卡通化,这一点不容忽视。

接着,前往通义万相的官方网站,链接为https://tongyi.aliyun.com/。在页面的左侧找到图像生成的图标,接着将输入框的设置切换到图像模式,随后输入相应的提示词,生成的效果如下面的示例所示。

然而,值得一提的是,第二章中的咖啡杯与输入的提示词并不一致。此外,有几张图片中的凳子却并非木制,这也显示出生成过程中的不足。进一步讲,这项服务是收费的,但在注册时会赠送一些积分以供使用。

总体而言,虽然多个模型生成的图像在大多数情况下都能使用,但它们对提示词的响应效果却各不相同。相比之下,百度和豆包这两个免费的选项表现相对较好。
本文由人人都是产品经理的作者【markzou】撰写,微信公众号为:【markzou的笔记】。该内容为原创并获得授权发布于人人都是产品经理,未经授权禁止转载。
图片来源于Unsplash,基于CC0协议。
