可灵AI创新数字人功能：简易输入，极速生成1分钟高质量视频！

共计 1782 个字符，预计需要花费 5 分钟才能阅读完成。

最近，可灵 AI 数字人正式发布，通过其卓越的口型精确度、情感动作表现及多元风格的适应能力，重新定义了数字人技术的行业标准。用户只需上传一张角色图像，输入角色的表达内容或音频，即可生成最长 1 分钟、表现力极强的数字人视频。此外，它还支持多种角色以及中英日韩等多语言，最低价格仅为每秒 0.12 元，广泛适用于广告、电商、娱乐、媒体、教育等多个领域。目前产品的公测已逐步开放。

简易输入，高效输出：一分钟内轻松生成数字人

可灵 AI 数字人大大降低了行业制作的门槛，用户只需提供一张角色图（可为写实人物、动漫或动物）并输入文本或音频，即可一键生成高达 1080p 分辨率和 48FPS 的高质量数字人视频。

该功能支持生成最长 1 分钟的视频，能够轻松满足产品演示、新闻播报、在线教育等多种需求。结合会员优惠，最低价格仅为 0.12 元 / 秒（标准价格为高品质模式 8 灵感值 / 秒，标准模式 4 灵感值 / 秒），使得高质量数字人技术不再是少数专业机构的专利，真正助力内容创作者和中小企业。

此外，为了实现便捷的“即开即用”体验，可灵 AI 还提供了一站式解决方案。用户不仅可以上传自己的素材，还可使用内置的官方形象库、AI 生图功能及近百种 TTS 音色，轻松完成角色创建与配音。

角色演绎“形神俱佳”

在数字人核心能力——表现力方面，可灵 AI 展现了其深厚的技术实力。它不仅仅满足于同类产品的简单音画同步，而是追求角色“形神兼备”的生动呈现。

在口型这一基本指标上，可灵 AI 数字人表现出行业领先的精确度。在实测案例中，一位女性歌手正在演唱英文歌曲，其唇形与快速变化的歌词完美契合，复杂的口型表现也相当出色。同时，基于提示词“眼神专注自信地唱歌”，数字角色展现出自信的眼神、自然持麦的姿态以及与观众互动的微笑，生动地重现了歌手在舞台上的表现。

同时，得益于可灵视频模型的强大能力，该数字人展现了出色的泛化性能，无论是写实角色、动漫卡通或动物形象，都能生成高质量数字人视频。在一只卡通猫咪演唱英文 Rap 的案例中，可灵 AI 精准捕捉音频节奏，创造出一只随节奏自然摇摆身体的“Rapper 猫”，超越不同角色风格的界限，赋予角色活力。

提示词驱动的角色表演情绪与动作精细可控

与仅仅“动嘴皮”的数字人不同，可灵 AI 数字人还具备了对情绪的深入理解能力，并能通过提示词精细控制角色情绪与肢体语言，实现“有灵魂的演出”。

（可灵 AI 数字人视频截图）

在一个表现“愤怒”情绪的案例中，模型根据音频内容和提示词“内心全是气愤，非常生气”，将这种抽象情感精准转化为具体的面部微表情——紧锁的眉头、紧抿的嘴唇和带有压迫感的眼神，生动展现了角色的内心怒火。

基于可灵 AI 视频模型，结合多模态理解大模型与视频生成模型的深度融合，打破了传统音画同步的表面拟合，首次实现了从“听声音”到“懂意图”的跨越。在口型精确度已达行业领先的基础上，该模型能够精准解析输入的语音、图像和提示词，确保长视频中数字人情绪、动作与镜头运用的精准规划，真正实现了从口型到情节演绎的升级。

技术驱动，树立数字人行业标杆

可灵 AI 数字人卓越表现的背后，是多模态理解大模型与视频生成模型的深度整合。通过音画高度对齐的交叉注意力机制、强化口型训练策略及精细数据处理，实现了语音与唇形的精确同步，即使在多语种、歌唱或快速台词的场景中，唇形与发音依然严丝合缝。采用关键帧控制架构，模型首先构建高层次叙事框架，然后并行生成多个片段的数字人视频，能够在保持身份一致的前提下，实现无限长度的视频生成。

在专业测试中，可灵 AI 数字人与行业知名产品 Heygen 及即梦数字人（Omnihuman- 1 方案）进行了效果对比。结果显示，可灵 AI 数字人在整体效果及多个细分维度上均表现优异，与即梦数字人（Omnihuman- 1 方案）对比的 GSB 总得分达到 2.39，与 Heygen 对比的 GSB 总得分达到 1.37，领先于行业。

* GSB 指标用于衡量群体意见的一致性与倾向性，GSB 值越大，表明模型优势越明显 * 评测

自 2024 年 6 月发布以来，可灵 AI 作为全球领先的视频生成大模型，已完成超过 30 次迭代，用户规模突破 4500 万，生成视频数量超 2 亿，为超 2 万家企业提供 API 服务，覆盖广告、影视、游戏等多个领域。随着可灵 AI 数字人的推出，行业创作门槛将进一步降低，制作标准将提升，推动其在短视频、电商直播、在线教育及企业服务等领域的广泛应用。（心月）

正文完