共计 678 个字符,预计需要花费 2 分钟才能阅读完成。
12月5日,记者从字节跳动获取的信息显示,该公司旗下的智能AI助手“豆包”在文生图功能上进行了重要升级,现已支持用户一键生成包含特定文本的图像。这意味着,只需在生成提示中添加文本要求,用户便可获得带有指定汉字的图片。目前,此项功能已在豆包APP内开展测试,同时在AI创作工具“即梦”上也开始了小范围的试用。
在文生图大模型领域,如何在图像中准确生成文本始终是一个行业难题,尤其是当涉及到中文时,生成过程中往往会出现乱码等问题。豆包大模型团队的负责人指出,这一现象的根源在于,汉字的字符结构较为复杂,且其字符数量是英文字母的两个数量级以上。通过连接大型语言模型(LLM)与扩散模型(DIT,Diffusion With Transformer),豆包文生图模型得以解决这一问题。“这意味着,豆包将拥有更卓越的中文数据学习能力,并在此基础上增强了汉字生成的性能,显著提高了图像生成的效果。”上述负责人对此表示。
记者发现,目前用户可以尝试利用该功能制作表情包、漫画,或辅助生成海报并分享到社交媒体平台。然而,目前该功能仅支持在文生图中添加文字,尚不支持上传图片以生成文字。
负责人进一步指出,由于该功能仍处于测试阶段,正持续进行优化和完善。目前在大多数情况下,豆包能够准确生成所需文字,但依然存在个别的错字、漏字或小字乱码等问题。预计豆包的网页及电脑版也将在近期推出此功能。
记者:鹿杨