共计 1991 个字符,预计需要花费 5 分钟才能阅读完成。
近期,可灵 AI 数字人正式发布,凭借其卓越的口型匹配精度、情感表现和多风格适应性,重新设定了数字人技术的行业标准。用户只需上传一张角色图片,输入想表达的内容或音频,便能生成时长最长为 1 分钟、极具表现力的数字人视频。该系统支持多种角色和中英日韩等多语言,起步价格仅为每秒 0.12 元,适用于广告、电商、娱乐、媒体和教育等多个领域。目前,该产品正在公测阶段,逐步向用户开放。

简易输入,优质输出:一分钟内生成数字人
可灵 AI 数字人显著降低了行业的制作门槛。用户只需提供一张角色图片(支持写实人物、动漫、动物等多样化角色),并输入一段文字或音频,即可一键生成高达 1080p 分辨率、48FPS 高帧率的优质数字人视频。
该技术支持生成最长为一分钟的数字人视频,能够完美适应产品介绍、新闻播报、在线教育等多种应用场景。结合会员优惠,最低价仅为每秒 0.12 元(标准模式下,优质模式为 8 灵感值 / 秒,标准模式为 4 灵感值 / 秒),使得高质量数字人技术不再是少数专业机构的特权,真正赋能于广大内容创作者和中小企业。
此外,为了实现更为便捷的“即用”体验,可灵 AI 还提供了一站式解决方案。用户不仅可以上传自己的素材,还可使用内置的官方形象库、AI 生图功能以及近百种 TTS 音色,轻松完成角色创建和配音的全过程。
角色演绎,情感与形态兼具
在数字人的核心能力——表现力方面,可灵 AI 展示了其深厚的技术实力。其不再满足于同行产品简单的音画同步,而是努力追求角色在生动演绎中的“神形兼备”。

在口型匹配这一关键指标上,可灵 AI 数字人展现了行业内领先的精确度。在实际测试中,一位女歌手演唱英文歌曲时,其唇形与快速变化的歌词音节完美对应,复杂的口型表现也十分出色。同时,根据提示词“眼神专注自信地唱歌”,数字角色展现了自信的眼神、自然持麦的姿势以及与观众互动的微笑,生动地再现了歌手在舞台上的表现。
借助可灵视频模型的强大能力,该数字人展现了卓越的泛化性能,无论是写实人物、卡通形象,或动物角色,都能生成高品质的视频。在一个卡通猫咪唱英文 Rap 的案例中,可灵 AI 精准捕捉音频节奏,创造出一只边说唱边自然摇摆的“Rapper 猫”,跨越不同角色风格的界限,赋予角色以生命。
提示词驱动角色表现,情感与动作精细可控
与仅仅“动嘴”的数字人不同,可灵 AI 数字人更深刻地理解和表达情感,可通过提示词细化角色情绪与肢体语言,实现“有灵魂的表演”。

(可灵 AI 数字人视频截图)
在表现“愤怒”情绪的案例中,模型根据音频内容和提示词“内心全是气愤,非常生气”,精准地将这一抽象情感转化为具体的面部微表情——紧锁的眉头、抿紧的嘴以及充满压迫感的眼神,完美展现了角色内心的怒火。
依托可灵 AI 视频模型,结合多模态理解大模型与视频生成模型的深度整合,该数字人突破了传统音画同步的局限,首次实现了从“听声音”到“懂意图”的跨越。在口型准确度行业领先的基础上,能够精准解析输入的语音、图像和提示词,对长视频中数字人的情感、动作与镜头进行周密规划,确保生成内容紧密呼应叙事意图与情感脉络,真正实现了从口型到情节演绎的跨越。
技术驱动,树立数字人行业标杆
可灵 AI 数字人的杰出表现,得益于其背后多模态理解大模型与视频生成模型的深度结合。通过音画高度对齐的交叉注意力机制、强化口型的训练策略以及细致的数据处理,确保语音与唇形的精准同步。即便在多语种、快速语速的对话场景中,唇形与发音的配合依然十分完美。此外,采用关键帧控制的架构,模型首先构建高层次的叙事骨架,然后并行生成多个片段的视频,从而在保持角色一致性的前提下,实现无限长度的视频生成。
在专业测试中,可灵 AI 数字人与行业知名产品 Heygen 以及即梦数字人(Omnihuman- 1 方案)进行了效果对比。结果显示,可灵 AI 数字人在整体效果及多个细分维度上均表现出色,与即梦数字人(Omnihuman- 1 方案)相比,其整体 GSB 得分为 2.39,而与 Heygen 相比,得分为 1.37,稳居行业领先地位。

* GSB 指标用于评估群体意见的一致性和正负倾向,GSB 值越高,表示模型的优势越明显 * 评测
自 2024 年 6 月发布以来,可灵 AI 作为全球领先的视频生成大模型,已完成超过 30 次迭代,用户规模突破 4500 万,生成视频数量超过 2 亿,为超过 2 万家企业提供 API 服务,覆盖广告、影视、游戏等多个领域。随着可灵 AI 数字人的推出,行业创作门槛将进一步降低,制作标准将得到提升,推动其在短视频、电商直播、在线教育和企业服务等领域的规模化应用。(心月)
