共计 2650 个字符,预计需要花费 7 分钟才能阅读完成。
随着AI大模型文生图技术的问世,文章配图、宣传海报以及短视频封面的制作变得更加高效和便捷。本文将对国内几款主流的文生图工具进行比较分析,包括即梦、可灵及豆包等,并探讨提示词的使用方法,同时展示这些工具在相同提示条件下的生成效果。

在大模型生图尚未普及之前,寻找合适的封面图片对我来说是个颇具挑战的任务。我常常需要在浏览器里逐一检查搜索结果,费时费力。有时偶然找到一张合适的图片,却发现其清晰度极低,实在让人无从下手。如果是为活动制作宣传图,网上几乎无法找到合适的选项,通常只能依赖平面设计师,或者花钱请人外包。
若设计师正忙于其他项目,还要排期,沟通之后可能会等上很久。然而,自从大模型文生图技术出现后,文章封面、配图、活动宣传、logo设计以及简单的图片编辑等都可以通过AI轻松完成。最近几个月,我的文章封面和内部配图都是由AI生成的。

此外,我最近还在制作短视频,其封面也是由AI生成,且上面添加了相关文字信息,

还有一些是商业宣传使用的图文素材。

为了创建我所需的数字人形象与背景图像,所使用的图片几乎无法辨别其是否为真实照片或是经过AI生成的。

与此同时,其他多样化的场景仍在持续探索,例如用户商品的封面图,或者给模特更换服装等。

接下来我们将讨论:
a、国内常见的文生图工具,分析它们的优缺点;
b、对文生图的提示词方法进行简要梳理;
c、最后,利用相同的提示词在不同工具上生成图片,观察效果。
一、国内
以下是最新评测的国内主要文生图工具的对比表,涵盖生成质量、功能特点、使用成本及适用场景等多个方面的分析:
探索文生图工具的优势与策略在众多文生图生成工具中,许多都提供了基础的免费使用额度,例如以积分或灵感值的形式。然而,对于频繁的商业需求,用户通常需要选择订阅服务。值得关注的电商运营工具包括通义万相(基于淘宝数据支持)和可灵AI(提供虚拟试穿功能)。
提示词的构建方法
构建文生图的提示词需要从多个角度进行系统性思考。以下是业界实践中的一些核心要素:
1. 内容描述
主体(Subject)
- 示例:一位穿着汉服的年轻女孩,手握油纸伞。
- 核心对象:应明确描绘人物、动物或物体的特征,包括年龄、服装和姿态。
- 细节强化:可涉及材质(如陶瓷杯)、状态(如热气腾腾)以及纹理(如毛茸茸的表面)。
环境与背景(Environment)
- 示例:晨曦下的雪山顶,松枝上覆盖着冰晶。
- 物理场景:包括室内外、自然景观(如雪山或森林)、城市街景等。
- 动态元素:考虑天气(如暴雨或晴天)、光线(如霓虹反射或晨光)。
情感与氛围(Mood)
- 示例:幽蓝色调,营造出苍茫的孤寂氛围。
- 抽象意境:可传达孤独感、梦幻感或赛博朋克风格的未来压抑感。
2. 艺术控制
风格(Style)
- 示例:水墨画风格,或皮克斯动画的质感。
- 艺术流派:如水墨画、浮世绘、赛博朋克或吉卜力风格。
- 媒介形式:可以是油画、水彩、3D渲染或摄影写实。
构图与视角(Composition)
- 示例:使用鸟瞰视角,动态构图,留白20%。
- 镜头语言:选择广角、微距或俯拍方式,以及中心对称或三分法构图。
- 主体比例:全身像或半身特写,合理控制留白空间。
画质与细节(Quality)
- 示例:超写实的细节表现,焦点清晰,自然光晕效果。
- 技术参数:如8K超清、电影级光影及细腻纹理。
- 光影效果:应用体积光、丁达尔效应及HDR技术。
- 权重控制(Weighting):使用增强符号提高某些关键词的重要性,或使用减弱符号降低其他关键词的存在感。
反向提示词(Negative Prompt):排除模糊、畸变、手或多余肢体等元素。示例:避免水印、低分辨率等问题。
结构化公式(万能框架):[主体] + [细节描述] | [环境背景] | [艺术风格] | [情感氛围] | [技术参数]。注意简洁精准,避免冗余词汇,确保核心词汇靠前,描述清晰。例如,错误的描述可以是“咖啡”,而正确的应为“陶瓷杯装的拿铁,表面有麦穗拉花,热气腾腾”。
生成效果展示
我们可以利用相同的提示词生成图像:
一位年轻的美丽女性,穿着休闲服,坐在一家复古风格的咖啡馆的木凳上,面前的榆木桌上放着一杯陶瓷杯装的拿铁,表面有麦穗拉花,热气升腾。她微微偏头望向窗外,夕阳正缓缓下落,阳光透过窗户洒在她的脸上,清晰可见她脸上的细腻毫毛。
在百度中,用户可以点击顶部的“AI”选项,接着选择“AI生图”,在输入框中输入相关提示词,稍等片刻即可生成图像。
以下是生成的效果图:

下图为生成的效果:

可灵AI的官网地址是:https://app.klingai.com/cn,访问后在左侧菜单中找到图片生成选项,选择左上角的“文生图”,即可将提示词粘贴进去进行生成。
首先,您需要访问豆包的官方网站,创建一个新的对话。在对话框的下方,找到“图片生成”选项。
接下来,您将看到生成的效果图,这些图像可以进行进一步编辑,以满足您的需求。
然后,打开即梦AI的官网,选择“文生图”功能,将您的提示词粘贴到指定区域,点击生成按钮。
最终,您将获得所需的效果图,简单易用,体验非常顺畅。
探索AI图像生成工具的使用体验

要使用腾讯元宝,您可以直接访问其官网,接着在页面右侧输入框中输入您的提示词。尽管生成的图像如图所示,整体效果并不理想,尽管背景是写实的,任务却呈现出卡通风格。

如果你想尝试通义万相,可以访问其官网
https://tongyi.aliyun.com/
在页面左侧找到图像生成的选项,然后在输入框下方切换为图像模式,接着输入您的提示词,生成的效果如图所示。

在使用过程中,我发现第二章生成的咖啡杯与提示词不符,此外,有几张图片中的凳子并不是木制的,这也是一个问题。而且,该工具在注册时会赠送一些积分,但使用后会涉及收费。

总体来看,尽管几个模型生成的图像大部分可以使用,但不同模型对提示词的响应效果有显著差异。相比之下,百度和豆包的免费版本表现相对较好。
本文由人人都是产品经理的作者【markzou】撰写,微信公众号:【markzou的笔记】,原创及授权发布于人人都是产品经理,未获得许可,禁止转载。
题图来源于Sora生成视频截图。
