共计 364 个字符,预计需要花费 1 分钟才能阅读完成。
新京报贝壳财经讯(记者韦英姿)在 9 月 18 日,快手向新京报贝壳财经记者透露,可灵 AI 近期推出了一项数字人功能,支持生成最长达 1 分钟的视频。目前,该产品正处于开放公测阶段。快手介绍,借助交叉注意力机制实现音画的高度对齐,以及针对口型进行强化训练的策略,配合精细化的数据处理,可灵 AI 数字人能够实现语音与唇形的完美同步。此外,采用关键帧控制的架构,模型首先建立高层次的叙事结构,然后并行生成多个片段的数字人视频,这样在确保身份一致性的基础上,能够生成一定长度的视频。
可灵 AI 数字人功能页面。企业供图
贝壳财经记者针对可灵 AI 数字人的口型对齐功能进行了测试,分别使用中文、英文和韩文歌曲。在一段 8 秒的视频中,发现该功能在中文歌曲的识别表现优于英文和韩文歌曲,英文和韩文歌曲中的个别词汇与数字人的唇形仍存在不匹配的情况。
编辑 杨娟娟
校对 柳宝庆
正文完