共计 1102 个字符,预计需要花费 3 分钟才能阅读完成。
根据“京东黑板报”于 3 月 19 日的消息,中国人工智能学会近日公布了 2024 年度“吴文俊人工智能科学技术奖”的获奖情况。京东科技的人工智能团队凭借其在“多模态交互式数字人关键技术及产业应用”方面的突出成就,荣获这一中国智能科学技术领域的最高奖项,特等奖的殊荣也是本年度唯一的特等奖。
据介绍,该项目在以下三个领域取得了显著的技术突破:
首先,开发出一种低成本、高保真的人体建模技术,成功解决了传统人体建模在成本和视觉效果上存在的诸多问题。
其次,提出了语义一致的多模态应答技术,克服了多模态语义对齐困难和应答不足的挑战。
最后,创新性地引入了多模态自然行为生成技术,解决了多样化行为协调性差和交互表现不佳的问题。
近期,京东言犀的数字人技术再度实现了飞跃。京东科技的人工智能团队推出的数字人通用基础大模型,结合了语音合成大模型 LiveTTS 和通用数字人大模型 LiveHuman,只需输入自然语言或一段 1 秒的视频 / 照片,就能生成 4K 超高清、100% 口型匹配的数字人,完全摆脱了以往制作数字人所需的线下拍摄、建模及耗时训练的限制。
LiveTTS 语音合成基座模型经过 20 万小时数据的训练,采用扩散模型,实现了“零样本”声音合成及多语言情感化输出,其音色相似度在业内领先,超出其他主要竞争者 1.3 倍,字符错误率(CER)可降低至最高 5.12%;而 LiveHuman 数字人基座模型则通过创新的人体过渡帧生成技术,成功解决了多片段衔接卡顿的问题,即使在遮挡、大角度、动态背景和多人直播等极端环境下,依然表现出色。
这些技术突破将数字人的生产成本大幅降低,从以往的数万元降至两位数,相较于真人拍摄的成本下降超过 90%。这标志着数字人技术从“专业工具”迈向了“普惠生产力”,为广告素材的批量生成、新媒体投放以及个人 IP 的构建等应用场景打通了技术壁垒,推动其走向工业级应用。
数字人直播受到广泛关注 央广网报道截图
关于 AI 数字人的产业应用,在 2024 世界人工智能大会上,京东云言犀的负责人曾表示,用户已经超越了对 AI 数字人直播的“恐怖谷效应”。一旦大众接受了这种数字内容,AI 数字人直播所带来的优势将显而易见:不仅能够节省人们的时间,实现全天候 24 小时的直播,还可以实现多个数字人之间的互动,呈现出更加丰富多彩的内容,其中许多形式连真人也未必能够做到。
数字人正在进入电商及各个产业场景 2024 年 WAIC 现场图
本文为观察者网独家稿件,未经授权,严禁转载。