一键生成，高一致性人物图像——豆包文生图新功能震撼上线！

没有评论

共计 1833 个字符，预计需要花费 5 分钟才能阅读完成。

豆包的功能提升到了新高度？

近日，许多AI行业的同仁们都在热烈讨论豆包新推出的CreationAgent v1.0 Beta版本（目前仍在灰度测试中），反馈相当积极。我们也亲自体验了一下这些新功能。

登录豆包后看到“智能升级”或“超能创意1.0”提示

意味着账号已被灰度测试

不得不说，豆包确实给人留下了深刻的印象，功能上也做得相当细致。以官方使用指南为例，文档中不但详尽地介绍了产品的各项能力，还列举了优质案例、不同场景下的使用建议以及现阶段的不足，实在称得上是豆包的绅士风度。

简单来说，这次豆包的能力提升主要体现在以下几个方面：

1. 一次性可以免费生成最多20张有差异的图像

2. 理解意图的能力增强，能够轻松理解自然语言，无需复杂提示

3. 多图生成时保持一致性。在需要批量生成的场景，如AI绘本或视频分镜等，不仅能保持风格的统一性，还能确保（基本的）角色一致性

4. 能够准确展现复杂的故事情节、人物的神态和氛围细节，甚至能“猜测”用户的需求，添加画面细节

5. 支持图像的二次编辑，豆包已经能够理解大部分修改需求，尽管仍有一些情况需要人工干预

为了避免官方宣传的夸大不实，我们测试了多个案例，结果显示，豆包确实能够一次性生成20张图片，并保持风格的一致性。

在角色一致性方面更是令人惊艳，以往AI视频制作中的“文生图-图生视频”的过程门槛显著降低。

不夸张地说，对于广大的用户生成内容（UGC）群体，利用口头提示生成图像的乐趣大幅提升，AI绘本、AI视频等热门内容创作的可能性也随之打开了一扇崭新的大门。

以下是我们进行的一些有趣的实测案例：

01. 使用单一提示词，批量生成风格相同但细节各异的图片

提示词：请生成10张国内著名景区的五一旅游海报，每张图中都要包含一个标志性建筑，海报上需附上相关文案，画面风格统一为动画电影，图片尺寸为3:4

提示词：请生成10张表达不同情绪的表情包，每张图中都以猫咪头像为主题，画面风格统一为简笔画，图片尺寸为1:1
标题：与AI一起创作：全新猫咪情绪简笔画与短剧制作

在当今的数字创作领域，生成20张充满各种情绪的猫咪简笔画，已经成为一种新趋势。每个画作都将搭配相应的英文情绪词汇，方便用户将其应用于微信表情包中。

AI技术的进步使得人物形象的一致性变得异常强大，尤其是在进行多轮对话和短剧创作时，豆包的能力得以体现。通过这一平台，创作者能够在视频分镜头脚本等高要求的视觉内容中，轻松保持角色风格的连贯性。

曾经，制作复杂的多图画面需要在Midjourney等工具中逐一生成，过程繁琐，而现在，通过豆包的升级功能，用户只需一键即可完成这一任务。将之前制作的圣诞视频分镜头脚本交给豆包，便能确保主角小女孩的形象保持一致，这无疑是对传统创作流程的颠覆。

此外，用户更可以与豆包共同创作短剧，既可以写脚本，又能实时生成图像，这种与AI的互动无疑激发了创作灵感，开拓了全新的艺术表达方式。

豆包：创新短剧创作中的AI助手

在母女亲密相处的温馨画面与父亲回家后，母亲怒扇他耳光的戏剧冲突之间，豆包不仅成功再现了这些场景，还为小女孩增添了一丝“惊讶”的表情，尽管原始提示并未要求如此。这种创造性的发挥恰好与现场的气氛完美契合。

这种“戏”的增添虽然出乎意料，却极具感染力，展现了AI在短剧创作中的独特角色。

03.图像理解与二次编辑

如果AI生成的图像效果不尽如人意，我们也可以通过口头指导进行修改。

例如，去掉海报上多余的文字：

然而，在实际操作中，我们也发现了豆包的一些不足之处。比如，让豆包将“gogogo出发咯”的邓超梗图转变为豆包的3D形象，最终生成的图像依然是邓超，只不过变成了“女装大佬版邓超”。

真相大白，看来豆包自我认知为女装的邓超（实际上并非如此）。

此外，官方的Bad Case中也提到，有些图片编辑的要求（例如扩展图像、提升清晰度、重绘）是无法通过对话完成的，文本编辑也无法基于原图进行。

当对话内容过长或需求复杂时，比如希望为英语单词添加音标细节，生成的图片可能会出现问题。

大家都试用豆包的新功能了吗？欢迎在评论区分享有趣的案例（或是搞笑的实例），让还没尝试过的朋友开开眼界👀