共计 3542 个字符,预计需要花费 9 分钟才能阅读完成。

智能交互变革
作者 | 陈骏达
编辑 | 漠影
在今年,字节跳动旗下的 AI 应用豆包经历了多次交互方式的创新。从春节期间推出的实时语音通话,到 5 月份加入的视频通话功能,豆包如今能够像真实的人一样,通过多种模式实现无缝沟通。
让我们来看看几个实例:
启动视频通话功能,简单地对准一个欧洲小国的国旗,豆包便能结合音视频信息,快速提供准确答案。
在通话的过程中,用户可以随意停顿、思考或更换话题,豆包能够 精准把握回复时机 ;而在豆包发言时,用户可以 随时打断,提出新的要求。
即便在地铁站、电梯和地下车库等 复杂的网络环境中,豆包的实时交互能力依然表现出色。以下案例表明,豆包在响应速度上没有明显的滞后,所给出的答复也十分清晰。
为了实现这种几乎直观的使用体验,并在一款国民级 AI 应用中稳定提供实时音视频交互,豆包需要克服许多技术挑战。
除了增强模型的能力,实时音视频交互还需解决如何将摄像头捕捉到的画面高清呈现、如何同步 AI 的视觉推理与搜索反馈,以及如何在网络丢包严重的情况下仍然保持高质量的通信。
豆包最终选择了 火山引擎的 RTC(实时音视频通信)技术 。目前,几乎所有真人用户间的音视频通话都依赖于 RTC 技术。火山引擎智能交互产品负责人杨若扬向智东西透露,他相信 未来人机音视频通话将全面进入 RTC 时代。
一、实时交互技术的分化,RTC 凭何胜出?
RTC 是一种专为低延迟互动设计的技术,能够降低通信延迟、确保实时性与质量,从而使用户之间及用户与系统之间实现几乎“面对面”的无缝音视频交互体验。
这项技术涵盖多个模块,例如音视频采集与编解码、网络传输以及网络自适应等,各模块协同工作,确保用户通过摄像头和麦克风采集的数据能够清晰流畅地传输至目标接收方,同时用户也能及时接收到对方的音视频反馈。
尽管 RTC 并非业内唯一的实时交互方案,但与基于 TCP 协议的另一大主流方案 WebSocket 相比,RTC 展现出了显著的优势。
在协议层面,RTC 底层使用 UDP 传输,避免了传统 TCP 协议需要完整接收后再传递给应用层的机制。RTC 允许一定程度的丢包来保证速度,因此具有极低的延迟,特别适合实时音视频通话和互动。
理论上,RTC 与 WebSocket 的语音延迟差异不大。然而,现实中的网络情况复杂多变,WebSocket 对丢包非常敏感,网络波动时延迟显著增加,流畅性不及 RTC。
RTC 技术展现出较强的抗弱网能力。通过线上实测数据可以清楚地看到,在 20% 的丢包环境下,WebSocket 方案已出现严重卡顿和断连,已有高达 15% 的用户无法使用;而 即便在 80% 的极端丢包情况下,RTC 不可用率也仅为 1%,体验稍有滞后(延迟为 4.6 秒)。
在视频场景中,RTC 技术利用带宽估算、前向纠错(FEC)和丢包重传等抗拥塞能力与端到端传输优化,有效降低了移动网络或拥挤 WiFi 下画面花屏与卡顿的风险。
火山引擎的 RTC 技术于 2021 年随品牌发布上线,而其研发始于 2017 年,旨在满足抖音直播连麦等需求。此后,该技术逐步在字节内部的音视频通话、社交娱乐、游戏、在线会议等场景中落地。
在 2021 年火山引擎成立后,RTC 技术逐渐实现产品化,承载能力持续提升。生成式 AI 的崛起为 RTC 技术带来了新的发展机遇,2024 年初,火山引擎推出了 基于 RTC 的对话式 AI 技术方案,这成为豆包交互体验升级的重要支撑。
二、豆包交互体验提升,核心技术栈揭秘
在文章开头的实例中,我们已见证了在 RTC 支持下,豆包的语音交互和视频电话带来的流畅体验。通过与火山引擎智能交互产品负责人杨若扬的沟通,我们了解到这一效果背后的具体实现。
豆包首先充分利用了火山引擎 RTC 方案的优势,达成了低延迟、高质量和抗弱网的音视频交互体验。
在网络层面,火山引擎具备 全球覆盖的边缘节点和骨干网络,有效缩短了数据传输的物理路径,减少了中间节点,降低了延迟与丢包风险。同时,其智能路由技术能够实时感知链路状态和拥塞情况,动态选择最优路径,确保数据传输的高效流畅。
在算法层面,火山引擎 RTC 技术具备 网络、音频和视频多层算法。网络侧通过动态带宽、自适应传输、前向纠错和智能重传等机制增强了弱网适应能力;而音视频侧结合神经网络编解码、分层和感知内容编码等技术,动态优化编码参数,切实减轻“最后一公里”网络的不确定性,确保用户端音视频传输的清晰度与稳定性。
杨若扬指出,在豆包这种“对话式 AI”场景下,RTC 技术所服务的对象已从人与人之间的交流,转变为人与机器的互动。火山引擎的 RTC 技术也因此针对新场景进行了针对性的升级和优化。
视频流与大模型在输入输出形式上存在明显差异:视频由一帧帧的图像组成,而当前的多模态大模型主要以理解单张图片为主,这要求模型能分析帧间的关系和时序,确保语义连续,从而需要不断 优化视频理解与关键帧提取算法,提升模型对动态场景的感知与处理能力。
在人与 AI 的对话中,AI 如何准确判断句子的结束时间、选择插话的时机也是一大挑战。人类可以凭借语境判断对方话语的结束,并通过音色识别说话者,过滤无关的噪声,而大部分 AI 系统仅依赖停顿的时长来判断,通常不够精确,因此需要引入智能语义判停和声纹降噪算法。
智能语义判停技术 能够根据语义判断用户的发言是否完整,从而确保模型不会过早做出回应。在以下案例中,用户可以停顿思考,而不会被豆包插话。
而 声纹降噪算法 则能在嘈杂环境中聚焦于目标说话者,屏蔽周围人声与噪声的干扰,将误打断率降低 15%-20%。
这些创新使得 AI 在音视频通话中的表现愈加接近人类的特性,也让用户在与豆包交谈时感受到更加流畅、自然、真实的互动体验。
三、智能音视频交互需求激增,RTC 有望成为坚实支柱
随着大模型与 AI 应用的成熟,音视频已成为新一代 AI 交互中不可或缺的组成部分,这些交互方式所提供的沉浸式体验对用户具有天然的吸引力和亲和力。
在虚拟陪伴、智能玩具、智能家居、智能教育等广泛场景中,用户对于低延时、高质量、自然流畅的人机对话的需求日益增加,而火山引擎的 RTC 技术正是支撑复杂场景实时音视频交互的底层技术,保障用户体验的关键所在。
在多 Agent 和多人场景中,RTC 技术展现出良好的 可扩展性。相较传统 WebSocket 的语音实现,RTC 在网络和算法层面更为成熟,原生支持房间管理、多流控制、音视频混合及优先级策略,适用于多人娱乐、企业办公等场景。
基于 RTC 的对话式 AI 技术不仅仅是“豆包专属”,而是为所有 AI 时代的产品提供重要价值。作为火山引擎的核心音视频技术之一,RTC 已广泛应用于字节的各大业务场景,并在真实用户环境中不断打磨与优化。
同时,火山引擎提供的 RTC 服务与其内部业务 完全同源 ,换句话说,企业通过火山引擎接入 RTC,使用的就是与 抖音、飞书、豆包同款的算法、架构与策略。
当然,RTC 技术也面临行业普遍的挑战:一方面,自建集成方案的门槛较高,需要具备专门的网络传输与音视频处理能力;另一方面,云服务资源的消耗也不可小觑,深度音频算法的调优同样需要大量投入。
杨若扬观察到,这些难题使得许多企业不得不选择实现成本较低、门槛较低的 WebSocket,进而牺牲用户体验,等待用户规模扩展后再考虑更换为更成熟的方案,这无形中限制了产品的成长与竞争力。
针对这些痛点,火山引擎的对话式 AI 一站式方案提供了低门槛、高质量的接入途径。开发者无需从零开始搭建复杂的架构,即可实现用户与 AI 的实时音视频互动,构建符合业务场景的 AI 实时对话能力。
火山引擎对话式 AI 官网:
https://www.volcengine.com/product/veRTC/ConversationalAI
火山引擎还为开发者提供了 每月 10000 分钟的免费额度,进一步降低了开发者的前期验证与迭代成本。
结论:从困难到标准配置,RTC 成对话式 AI 优选
在对话式 AI 的应用场景中,RTC 正逐渐成为企业的首选方案,这种整合方案使企业能够更专注于业务创新,以更低的成本和更快的速度实现语音及音视频能力的落地,确保用户从一开始就享有高质量的交互体验,为下一代智能应用赢得先机与良好口碑。
火山引擎的对话式 AI 一站式方案,使实时音视频从“难点”转变为“标配”,为各种 AI 应用及智能体生态的拓展创造了广阔空间,使未来的人机互动更加流畅、高效且富有温度。
杨若扬表示,在多模态音视频技术方面,火山引擎希望实现人和 AI 之间的对话越来越接近人与人之间的真实交流,这也是他们未来持续追求的目标。