共计 1207 个字符,预计需要花费 4 分钟才能阅读完成。
界面新闻记者 | 肖芳
界面新闻编辑 | 宋佳楠
根据界面新闻5月30日的报道,快手自主研发的文生图大模型“可图”已于近期正式向外界开放。该大模型目前具备文生图与图生图两项主要功能,能够支持AI生成图像及定制形象。用户可以通过“可图”的微信小程序和网页版进行访问,这是快手首次向公众推出其自研的大模型系列。
知情人士透露,快手在去年年初成立了大模型研发团队,依托其在AIGC算法及大规模语言模型领域的技术积累,开展了包括大语言模型、文生图大模型及视频生成大模型等多个方向的开发与训练,团队由技术副总裁张迪领导。从组织结构上看,快手的大模型团队归属于快手社区科学线。
值得注意的是,“可图”大模型的参数规模达到十亿级,这些数据来源于开源社区、快手内部构建及自研的AI技术,覆盖了数百万的中文实体概念。此外,该模型还引入了强化学习和奖励模型技术(RLHF),有效解决了文生图在处理长文本和复杂语义输入时的效果问题。
实际上,早在去年9月,“可图”大模型平台就已在快手内部开始测试,旨在为内部业务团队提供支持。在App的评论区内,快手推出了“AI玩评”和“AI小快”等多种互动功能,这些玩法均基于“可图”大模型的能力,涵盖了文生图、图生图及扩图等多种功能。

从目前已上线的功能来看,“可图”主要针对消费者,提供了多样的互动玩法和热门应用。例如,“AI形象定制”功能,即图生图,利用人脸保持技术,能够保留人物的自然特征,并一键生成多种风格的人像作品。与妙鸭相机等侧重于写实人像的产品不同,“可图”更强调趣味性,允许用户上传图片以生成复古像素风格和童年照,也包括流行的黏土风特效及写实人像的“韩式写真”等模式。

此外,“可图”大模型还为创作者提供了实用的工具,帮助他们在图像和视频素材的创作与生产过程。
在2024年第一季度财报电话会议上,快手的CEO程一笑提到,今年第一季度,快手持续推动自研大模型各项性能的提升,并加快其在不同业务场景中的应用步伐。近期,快手也正式发布了其首个多模态大语言模型。
根据界面新闻的了解,快手内部在今年已明确了大模型的应用策略,主要聚焦于理解、互动与生成三个方面,具体应用场景包括全域大模型内容理解、AI互动以及商业场景下的数字人和AIGC等。其中,“可图”的发布便是快手大模型应用策略中的重要组成部分。
现在,AIGC辅助生成营销素材的应用已经在抖音、快手、爱奇艺等多个平台得到了推广。其中,利用字节跳动的AIGC能力实现营销增长的企业超过3000家,快手在第一季度的AIGC营销素材单日消费峰值更是突破了1000万元。
