共计 3368 个字符,预计需要花费 9 分钟才能阅读完成。
最近,国内一些“冷门歌手”因 AI 翻唱而再度引发关注。
在 B 站上,有网友利用 AI 技术生成了歌手孙燕姿的虚拟形象,这种方式与车载导航中的“林志玲”和“郭德纲”相似。通过对歌手本人的音频进行训练,创造出一位音色完全相同的“孙燕姿”。
于是,粉丝们的愿望——让偶像演唱自己心爱的歌曲,就以这样奇特的形式得到了实现。
而在海外,情况更加疯狂。
美国一位 23 岁的女网红,拥有 180 万粉丝,她通过 GPT- 4 技术重现了自己的 AI 形象,并与超过 1000 名网友同时交往,每分钟收费 1 美元。
仅仅一周,她便赚取了 7.16 万美元。
而且,她的“男友”数量还在不断增长,目前已经接近一万名,排队等待与她“约会”的时间已长达 96 小时。
分析人士表示,按照当前的发展趋势,她的月收入有望达到 500 万美元,如果没有技术上的限制,她的收入可能会达到天文数字。
这些现象充分表明,AI+ 所带来的新技术红利时代正在迅速到来。
01
数字人进驻直播领域
直播带货成为了虚拟 IP 变现的最佳场景。
Z 世代在社交、视频及在线购物等工具的使用上,明显超出全网平均水平,数字人与虚拟空间的结合,为他们带来了独特的体验与互动,而虚拟 IP 的主要粉丝群体多为 18 至 24 岁的年轻人。
这一趋势让品牌商看到了打破圈层的机遇。
2020 年,虚拟歌手洛天依和乐正绫在淘宝直播中为博士伦、美的和欧舒丹等品牌进行带货,观看人数高达 270 万,近 200 万人参与打赏互动。
这一事件引发了广泛讨论, 虚拟数字人直播时代的到来已经无可否认。
而随着 chatGPT 引发的人工智能大模型热潮,虚拟数字人领域迎来了更为猛烈的爆发。
众多虚拟数字人开始汇聚到直播间中。
今年 4 月,天娱数科旗下的虚拟数字人“朏朏”成功接入了 ChatGPT 模型,并完成了首次直播,不仅能够实时回答顾客提问,还能自主应对各种问题。
短视频平台上,常常出现这样的情景:一家公司办公区内空无一人,只有一排排桌子上,数十台电脑屏幕里正有 AI 美女们在进行直播……
这家公司只依靠 2D 超写实的虚拟形象,提前设计好的台词和场景,就能进行一整天的直播, 尽管单个效果不如真人,但成本低得惊人,而且可以以极低的成本进行复制,真正实现了躺着也能让 AI 赚钱。
这一切表明,基于“AI+”的内容效率革命正在数字人领域蓬勃发展。
虚拟数字人依照制作技术、应用场景和形象特点被分为多类。
与 3D 偶像不同,目前大多数直播间中所使用的基于真人原型复刻的声音和表情的 2D 写实数字人,已经让人难以分辨真假,但制作成本却远低于进入娱乐圈的 A -Soul IP 们。
一个虚拟主播能够进行 24 小时不间断的直播,随叫随到,无需担忧人设崩塌的问题,从而大幅降低了直播过程中的人工成本。
这一切的背后,是 AIGC 正在重塑数字人的生产流程。
2D 数字人的制作依赖于深度学习,制作时只需确定形象设计,相关的图文音频数据经过采集和预处理后上传到模型进行训练,制作方式相对于 3D 更为简单和标准化,整体效率不断提升。
这种流水线式的生产方式,大幅降低了数字人的制作门槛、成本与周期。
同时,随着行业制作端技术的迭代和成本的急剧下降,适用于小型客户的数字人解决方案也相继出现。
在四月份,腾讯云推出的数字人生产平台,允许需要生成真人形象的数字分身的客户在平台上采购服务,只需上传图像和音视频即可实现定制,费用根据音色和视频时长收取。
除了数字人制作外,平台还提供完整的数字人直播解决方案,包括真人音频接管直播间、获取用户评论进行智能回复,定价仅需千元水平。
更有些渠道商,打包出售 AI 主播的价格甚至低于 200 元。
这些主播形象大多来自模特经纪公司的授权,尽管投放质量较为粗糙,抠图痕迹明显,声音也缺乏特色。
然而,对于普通中小企业来说,缺乏大 V 带货资源,无法承担高达百万的高端 IP 定制费用,想要降低运营成本并快速扩张,几千块的数字人已足够吸引人。
如果企业希望自行修改代码,创造不同的数字人,还可以向技术提供商购买源码,虽然售价高于直接购买 AI 主播,但不仅可以自用,还能利用源码发展代理,甚至比自己制作数字人直播更具盈利空间。
不过,AI 数字人的故事还没有结束。
02
为 AI 注入灵魂
根据 IDC 的《中国 AI 数字人市场现状与机会分析》报告,数字人被划分为五个等级,目前其发展经历了从手工制作到 AI 建模的阶段,初具人的外形,但仍只能进行简单的交互决策。
当智能化水平达到 L4 和 L5 级别时,AI 驱动的数字人将能够接管大多数场景决策,支持更多模态的实时交互,类似于“钢铁侠”中的私人 AI 管家“贾维斯”。
虚拟数字人过去三十年的发展,技术和市场需求主要围绕两个方面演变:视觉效果与交互体验。
虚拟数字人最初出现在游戏、动漫和电影中,情感连接和 IP 价值的延伸吸引了众多关注。
早期角色型 IP 采用手绘形式,动作则需逐帧绘制。1982 年,日本动画《超时空要塞》的女主角林明美成为首位发行音乐专辑的虚拟歌手。
在电影领域,形象虽然可以通过计算机建模,但动作依然需要人来完成,CG 技术和动作捕捉技术逐渐普及,使得演员能够胜任各种角色。
进入千禧年,从 2002 年的《指环王》到去年的《阿凡达 2》,角色渲染效果日趋细致,为艺术创作提供了极大的便利。
至此,数字人技术的发展不断追求极致,更加逼近“人”的真实,不仅要求外观和服装在视觉效果上接近真实,还包括驱动(呈现真实细腻的表情和动作)及渲染(使画面更加精细和实时)。
然而,总觉得还缺少一些东西。
1970 年,日本机器人专家森昌弘提出了“恐怖谷”理论,认为由于机器人在外表和动作上与人类相似,人们会对机器人产生正面的情感。
但当机器人与人类的相似度达到某一特定程度时,细微差别会被放大,产生负面情绪;而当相似度继续上升,人类对其情感又会恢复正面。
与电影不同,社交属性更强的应用场景对数字人的实时交互要求更高,不再满足于制作一个好看的“花瓶”。
在交互性方面,自然语言处理模型弥补了这一空缺。
文本生成技术的突破,使得虚拟数字人的“智商”得到了显著提升。
NLP 大模型作为 AI 驱动虚拟人的技术基础,可以让虚拟数字人具备说话和沟通能力,降低标准化内容的制作成本,训练其担任智能客服、主持人、导游等角色。长期来看,随着个性化和情感理解能力的提升,未来将能够为老人提供陪伴,为孩子成为“私人教师”。
此外,嘴型动作也可以由 AI 驱动,与文本建立映射关系,随着真实感的提高,微表情也将更为丰富,这样的数字人不仅在形态上“形似人”,在情感上也能“神似人”。
Midjourney 作为基于扩散模型的热门产品,于去年 7 月发布,通过文本输入指令来训练 AI 绘画。
有机构曾测算,目前其年收入已达到 1 亿美元的规模。
一位 B 站 up 主利用 Midjourney 复原了奶奶的真实形象,外观上细致到衰老的皮肤纹理和白头发,加上过去的音频重现了奶奶的声音,最终通过 D -ID 生成了奶奶的数字分身。
为了弥补未能与奶奶道别的遗憾,孙子与眼前的数字“奶奶”展开了对话,而“奶奶”的回答实际上是 ChatGPT 提供的素材。
正是由于越来越多用户的尝试,为 AI 的“个性化”发展提供了丰富的训练素材,加速了 AI 模型数据的丰富,最终让 AI 能够为数字人注入灵魂,带来更大的可能性。
03
总结
对虚拟分身的探索已经持续了三十多年,从手绘到真人驱动,再到现在的 AI 驱动,拟真和交互体验的不断进步打开了广阔的应用场景,涓涓细流汇聚成海洋。
AIGC 技术使普通人的外貌、声音等特征实现了全面数字化,更低的制作门槛扩展了市场的想象空间。
IDC 预计到 2026 年,中国的 AI 数字人市场规模将达到 102.4 亿元人民币,而能否给我们带来良好的体验将决定数字人的未来命运。
同时,AI 数字人有潜力成为下一代人机交互的入口,未来我们面对的或许不再是冰冷的屏幕,而是生动活泼的数字人类,能够深入挖掘人类的情感需求,成为我们生活中的参与者。
或许正如 AI 领域的先驱所言,人类只是智慧演化的一个过渡阶段,以便创造出数字智能,如今我们终于拥有了一个长得像人类的数字分身,可以像我们一样说话,将来或许还能够像我们一样思考。