共计 694 个字符,预计需要花费 2 分钟才能阅读完成。
12 月 5 日,字节跳动的消息引起关注,其旗下的智能 AI 助手豆包在文生图功能上进行了升级,现已能够一键生成用户指定的文本。这意味着,用户只需在生成图像时输入文本指令,便能够得到包含特定汉字的图片。目前,该功能已在豆包 APP 中开始测试,并在 AI 创作工具即梦上进行小规模的试用。

在文生图大模型的领域中,如何在图像中准确地生成文本,特别是中文,始终是一个挑战,尤其是在生成过程中常常会遇到乱码。豆包的相关负责人指出,造成这种现象的原因在于汉字的结构比英文字母复杂得多,且汉字的数量也比字母多出两个数量级。豆包文生图模型通过连接 LLM(大型语言模型)与 DIT 架构(图像生成扩散模型)来解决这一问题。“这意味着,豆包将拥有更强大的原生中文数据学习能力,同时在此基础上显著增强了汉字的生成能力,从而大幅提升了生成效果。”该负责人强调。
记者注意到,用户现已能够利用此功能制作表情包、漫画,或协助生成海报,并在社交媒体上分享。然而,目前该功能仅限于在文生图时添加文字,尚不支持通过上传图片来生成文字。
该负责人还提到,由于此功能仍处于测试阶段,因此还在不断改进中。目前大部分情况下,豆包能够准确生成用户指定的文字,但偶尔也会出现错字、漏字或者小字乱码的情况。据了解,豆包的网页和电脑版也将在不久后推出此功能。
记者:鹿杨
