京东斩获唯一特等奖，数字人成本惊人降至几十元！

共计 1102 个字符，预计需要花费 3 分钟才能阅读完成。

根据“京东黑板报”于 3 月 19 日的消息，中国人工智能学会近日公布了 2024 年度“吴文俊人工智能科学技术奖”的获奖情况。京东科技的人工智能团队凭借其在“多模态交互式数字人关键技术及产业应用”方面的突出成就，荣获这一中国智能科学技术领域的最高奖项，特等奖的殊荣也是本年度唯一的特等奖。

据介绍，该项目在以下三个领域取得了显著的技术突破：

首先，开发出一种低成本、高保真的人体建模技术，成功解决了传统人体建模在成本和视觉效果上存在的诸多问题。

其次，提出了语义一致的多模态应答技术，克服了多模态语义对齐困难和应答不足的挑战。

最后，创新性地引入了多模态自然行为生成技术，解决了多样化行为协调性差和交互表现不佳的问题。

近期，京东言犀的数字人技术再度实现了飞跃。京东科技的人工智能团队推出的数字人通用基础大模型，结合了语音合成大模型 LiveTTS 和通用数字人大模型 LiveHuman，只需输入自然语言或一段 1 秒的视频 / 照片，就能生成 4K 超高清、100% 口型匹配的数字人，完全摆脱了以往制作数字人所需的线下拍摄、建模及耗时训练的限制。

LiveTTS 语音合成基座模型经过 20 万小时数据的训练，采用扩散模型，实现了“零样本”声音合成及多语言情感化输出，其音色相似度在业内领先，超出其他主要竞争者 1.3 倍，字符错误率（CER）可降低至最高 5.12%；而 LiveHuman 数字人基座模型则通过创新的人体过渡帧生成技术，成功解决了多片段衔接卡顿的问题，即使在遮挡、大角度、动态背景和多人直播等极端环境下，依然表现出色。

这些技术突破将数字人的生产成本大幅降低，从以往的数万元降至两位数，相较于真人拍摄的成本下降超过 90%。这标志着数字人技术从“专业工具”迈向了“普惠生产力”，为广告素材的批量生成、新媒体投放以及个人 IP 的构建等应用场景打通了技术壁垒，推动其走向工业级应用。

数字人直播受到广泛关注央广网报道截图

关于 AI 数字人的产业应用，在 2024 世界人工智能大会上，京东云言犀的负责人曾表示，用户已经超越了对 AI 数字人直播的“恐怖谷效应”。一旦大众接受了这种数字内容，AI 数字人直播所带来的优势将显而易见：不仅能够节省人们的时间，实现全天候 24 小时的直播，还可以实现多个数字人之间的互动，呈现出更加丰富多彩的内容，其中许多形式连真人也未必能够做到。