共计 1782 个字符,预计需要花费 5 分钟才能阅读完成。
最近,可灵 AI 数字人正式发布,通过其卓越的口型精确度、情感动作表现及多元风格的适应能力,重新定义了数字人技术的行业标准。用户只需上传一张角色图像,输入角色的表达内容或音频,即可生成最长 1 分钟、表现力极强的数字人视频。此外,它还支持多种角色以及中英日韩等多语言,最低价格仅为每秒 0.12 元,广泛适用于广告、电商、娱乐、媒体、教育等多个领域。目前产品的公测已逐步开放。
简易输入,高效输出:一分钟内轻松生成数字人
可灵 AI 数字人大大降低了行业制作的门槛,用户只需提供一张角色图(可为写实人物、动漫或动物)并输入文本或音频,即可一键生成高达 1080p 分辨率和 48FPS 的高质量数字人视频。
该功能支持生成最长 1 分钟的视频,能够轻松满足产品演示、新闻播报、在线教育等多种需求。结合会员优惠,最低价格仅为 0.12 元 / 秒(标准价格为高品质模式 8 灵感值 / 秒,标准模式 4 灵感值 / 秒),使得高质量数字人技术不再是少数专业机构的专利,真正助力内容创作者和中小企业。
此外,为了实现便捷的“即开即用”体验,可灵 AI 还提供了一站式解决方案。用户不仅可以上传自己的素材,还可使用内置的官方形象库、AI 生图功能及近百种 TTS 音色,轻松完成角色创建与配音。
角色演绎“形神俱佳”
在数字人核心能力——表现力方面,可灵 AI 展现了其深厚的技术实力。它不仅仅满足于同类产品的简单音画同步,而是追求角色“形神兼备”的生动呈现。
在口型这一基本指标上,可灵 AI 数字人表现出行业领先的精确度。在实测案例中,一位女性歌手正在演唱英文歌曲,其唇形与快速变化的歌词完美契合,复杂的口型表现也相当出色。同时,基于提示词“眼神专注自信地唱歌”,数字角色展现出自信的眼神、自然持麦的姿态以及与观众互动的微笑,生动地重现了歌手在舞台上的表现。
同时,得益于可灵视频模型的强大能力,该数字人展现了出色的泛化性能,无论是写实角色、动漫卡通或动物形象,都能生成高质量数字人视频。在一只卡通猫咪演唱英文 Rap 的案例中,可灵 AI 精准捕捉音频节奏,创造出一只随节奏自然摇摆身体的“Rapper 猫”,超越不同角色风格的界限,赋予角色活力。
提示词驱动的角色表演 情绪与动作精细可控
与仅仅“动嘴皮”的数字人不同,可灵 AI 数字人还具备了对情绪的深入理解能力,并能通过提示词精细控制角色情绪与肢体语言,实现“有灵魂的演出”。
(可灵 AI 数字人视频截图)
在一个表现“愤怒”情绪的案例中,模型根据音频内容和提示词“内心全是气愤,非常生气”,将这种抽象情感精准转化为具体的面部微表情——紧锁的眉头、紧抿的嘴唇和带有压迫感的眼神,生动展现了角色的内心怒火。
基于可灵 AI 视频模型,结合多模态理解大模型与视频生成模型的深度融合,打破了传统音画同步的表面拟合,首次实现了从“听声音”到“懂意图”的跨越。在口型精确度已达行业领先的基础上,该模型能够精准解析输入的语音、图像和提示词,确保长视频中数字人情绪、动作与镜头运用的精准规划,真正实现了从口型到情节演绎的升级。
技术驱动,树立数字人行业标杆
可灵 AI 数字人卓越表现的背后,是多模态理解大模型与视频生成模型的深度整合。通过音画高度对齐的交叉注意力机制、强化口型训练策略及精细数据处理,实现了语音与唇形的精确同步,即使在多语种、歌唱或快速台词的场景中,唇形与发音依然严丝合缝。采用关键帧控制架构,模型首先构建高层次叙事框架,然后并行生成多个片段的数字人视频,能够在保持身份一致的前提下,实现无限长度的视频生成。
在专业测试中,可灵 AI 数字人与行业知名产品 Heygen 及即梦数字人(Omnihuman- 1 方案)进行了效果对比。结果显示,可灵 AI 数字人在整体效果及多个细分维度上均表现优异,与即梦数字人(Omnihuman- 1 方案)对比的 GSB 总得分达到 2.39,与 Heygen 对比的 GSB 总得分达到 1.37,领先于行业。
* GSB 指标用于衡量群体意见的一致性与倾向性,GSB 值越大,表明模型优势越明显 * 评测
自 2024 年 6 月发布以来,可灵 AI 作为全球领先的视频生成大模型,已完成超过 30 次迭代,用户规模突破 4500 万,生成视频数量超 2 亿,为超 2 万家企业提供 API 服务,覆盖广告、影视、游戏等多个领域。随着可灵 AI 数字人的推出,行业创作门槛将进一步降低,制作标准将提升,推动其在短视频、电商直播、在线教育及企业服务等领域的广泛应用。(心月)