共计 1562 个字符,预计需要花费 4 分钟才能阅读完成。
在校园中,您可能会看到一个扎着马尾辫、背着书包的身影,她是清华大学计算机系的“学生”,同时也是清华首位虚拟数字人——华智冰。 那么,虚拟数字人究竟是什么?又是什么技术使其如此栩栩如生呢?

华智冰(图源:《知识就是力量》杂志)

在虚拟
空间中的“伙伴”
虚拟数字人活跃在电脑和网络领域,您可以与它们进行互动,随着时间的推移,它们会逐渐“理解”您的习惯,从而变得愈加“了解”您。为了提升这些虚拟朋友的真实感,科学家们研发了一系列先进技术。
理解您的言语
背后的关键是自然语言处理技术, 它涵盖了语音识别、语言理解与生成等多个方面,使得虚拟数字人能够理解并产生自然语言。
除此之外,为了让虚拟数字人的表情和动作更为生动,科学家们运用了面部表情与身体动作捕捉技术,对人类的运动数据进行收集和分析,从而实现对虚拟数字人动作和行为的控制。这样一来,它们便能以更加自然和有趣的方式与人互动。
情感的“加油站”
在情感交流的环节中,情感识别技术发挥了重要作用。 该技术能够通过分析用户的对话内容、语音语调以及面部表情等信息,来判断其情感状态,并给予适当的情感反馈。
洞悉您的意图
为了让虚拟数字人能够记住用户的喜好并提供更优质的服务,深度学习技术通过对大量数据的学习和分析,使其能够自主改进行为。
在与虚拟数字人的交流中,自然语言理解技术使其能够解读用户输入的自然语言并作出响应。近年来,大语言模型的出现为人机交互的智能化带来了新的突破。

栩栩如生的“人”
耳熟能详的声音
基于自然语言的理解与文本的生成,语音合成技术能够将书面信息转化为音频,使虚拟数字人的发声更显自然。
早期的语音合成是通过单元拼接的方式来实现的,首先构建一个语音片段的数据库,然后从中选择合适的片段进行拼接,形成所需的语音输出。

虚拟数字人所需的技术处理流程(图源:《知识就是力量》杂志)
随着深度学习技术的不断进步, 深度神经网络被应用于学习文本和语音之间的复杂联系,利用大量训练数据以生成更自然的语音。 而且,随着深度学习模型的不断更新,现在的模型已经可以通过几段同学的语音样本,成功“克隆”出该同学的声音,实现文本与声音的无缝转换。
人工智能技术的“人”化
3D 建模技术是构建虚拟数字人外观和形态的核心。建模软件能够创造出极为生动的虚拟形象;运动学引擎则负责模拟虚拟人的动作,使行为显得更加真实流畅;而关节驱动与程序驱动技术则为虚拟数字人提供了开放的互动体验及高度个性化的行为控制。

虚拟数字人
能实现哪些功能?
作为客服代表,虚拟数字人展现出极大的潜力,它们不仅能提供全天候服务,还可以根据用户的情绪状态提供个性化的服务,从而提升服务效率并优化用户体验。

虚拟数字人(图源:《知识就是力量》杂志)
在教育领域,虚拟数字人可以“扮演”教师或助教,依据学生的学习状况,智能推荐学习内容,甚至在虚拟环境中模拟实验过程,为学生提供更加生动直观的学习体验。
例如在北京邮电大学,运用“5G+ 全息投影”技术,授课教师的三维全息影像清晰地出现在教室讲台之上,成功实现了跨校区的远程互动教学。教室内还配备了智能助学机器人,能够帮助学生更有效地完成学习任务。
在医疗健康领域,虚拟数字人能够辅助医生进行诊断,提供治疗建议,尤其是在远程医疗中发挥着重要作用。例如,它们可以通过模拟手术和解剖,帮助医学学生进行实践训练。
虚拟数字人就像是未来的使者,每一次与之互动都仿佛是一场奇妙的“冒险”。 展望未来,它们将愈加智能化和个性化,可能会成为我们生活中不可或缺的组成部分。
撰文 | 李雅、高迎明
责任编辑 | 王佳璇、段阳阳
运营编辑 | 段阳阳
质量审核 | 业蕾
❖ 文章
《数字世界的居民 – 虚拟数字人》❖