揭秘豆包视频背后的AI实时互动体验密码！

没有评论

共计 3542 个字符，预计需要花费 9 分钟才能阅读完成。

智能交互变革

作者 | 陈骏达

编辑 | 漠影

在今年，字节跳动旗下的 AI 应用豆包经历了多次交互方式的创新。从春节期间推出的实时语音通话，到 5 月份加入的视频通话功能，豆包如今能够像真实的人一样，通过多种模式实现无缝沟通。

让我们来看看几个实例：

启动视频通话功能，简单地对准一个欧洲小国的国旗，豆包便能结合音视频信息，快速提供准确答案。

在通话的过程中，用户可以随意停顿、思考或更换话题，豆包能够 精准把握回复时机 ；而在豆包发言时，用户可以 随时打断，提出新的要求。

即便在地铁站、电梯和地下车库等 复杂的网络环境中，豆包的实时交互能力依然表现出色。以下案例表明，豆包在响应速度上没有明显的滞后，所给出的答复也十分清晰。

为了实现这种几乎直观的使用体验，并在一款国民级 AI 应用中稳定提供实时音视频交互，豆包需要克服许多技术挑战。

除了增强模型的能力，实时音视频交互还需解决如何将摄像头捕捉到的画面高清呈现、如何同步 AI 的视觉推理与搜索反馈，以及如何在网络丢包严重的情况下仍然保持高质量的通信。

豆包最终选择了 火山引擎的 RTC（实时音视频通信）技术 。目前，几乎所有真人用户间的音视频通话都依赖于 RTC 技术。火山引擎智能交互产品负责人杨若扬向智东西透露，他相信 未来人机音视频通话将全面进入 RTC 时代。

RTC 是一种专为低延迟互动设计的技术，能够降低通信延迟、确保实时性与质量，从而使用户之间及用户与系统之间实现几乎“面对面”的无缝音视频交互体验。

这项技术涵盖多个模块，例如音视频采集与编解码、网络传输以及网络自适应等，各模块协同工作，确保用户通过摄像头和麦克风采集的数据能够清晰流畅地传输至目标接收方，同时用户也能及时接收到对方的音视频反馈。

尽管 RTC 并非业内唯一的实时交互方案，但与基于 TCP 协议的另一大主流方案 WebSocket 相比，RTC 展现出了显著的优势。

在协议层面，RTC 底层使用 UDP 传输，避免了传统 TCP 协议需要完整接收后再传递给应用层的机制。RTC 允许一定程度的丢包来保证速度，因此具有极低的延迟，特别适合实时音视频通话和互动。

理论上，RTC 与 WebSocket 的语音延迟差异不大。然而，现实中的网络情况复杂多变，WebSocket 对丢包非常敏感，网络波动时延迟显著增加，流畅性不及 RTC。

RTC 技术展现出较强的抗弱网能力。通过线上实测数据可以清楚地看到，在 20% 的丢包环境下，WebSocket 方案已出现严重卡顿和断连，已有高达 15% 的用户无法使用；而 即便在 80% 的极端丢包情况下，RTC 不可用率也仅为 1%，体验稍有滞后（延迟为 4.6 秒）。

在视频场景中，RTC 技术利用带宽估算、前向纠错（FEC）和丢包重传等抗拥塞能力与端到端传输优化，有效降低了移动网络或拥挤 WiFi 下画面花屏与卡顿的风险。

火山引擎的 RTC 技术于 2021 年随品牌发布上线，而其研发始于 2017 年，旨在满足抖音直播连麦等需求。此后，该技术逐步在字节内部的音视频通话、社交娱乐、游戏、在线会议等场景中落地。

在 2021 年火山引擎成立后，RTC 技术逐渐实现产品化，承载能力持续提升。生成式 AI 的崛起为 RTC 技术带来了新的发展机遇，2024 年初，火山引擎推出了 基于 RTC 的对话式 AI 技术方案，这成为豆包交互体验升级的重要支撑。

在文章开头的实例中，我们已见证了在 RTC 支持下，豆包的语音交互和视频电话带来的流畅体验。通过与火山引擎智能交互产品负责人杨若扬的沟通，我们了解到这一效果背后的具体实现。

豆包首先充分利用了火山引擎 RTC 方案的优势，达成了低延迟、高质量和抗弱网的音视频交互体验。

在网络层面，火山引擎具备 全球覆盖的边缘节点和骨干网络，有效缩短了数据传输的物理路径，减少了中间节点，降低了延迟与丢包风险。同时，其智能路由技术能够实时感知链路状态和拥塞情况，动态选择最优路径，确保数据传输的高效流畅。

在算法层面，火山引擎 RTC 技术具备 网络、音频和视频多层算法。网络侧通过动态带宽、自适应传输、前向纠错和智能重传等机制增强了弱网适应能力；而音视频侧结合神经网络编解码、分层和感知内容编码等技术，动态优化编码参数，切实减轻“最后一公里”网络的不确定性，确保用户端音视频传输的清晰度与稳定性。

杨若扬指出，在豆包这种“对话式 AI”场景下，RTC 技术所服务的对象已从人与人之间的交流，转变为人与机器的互动。火山引擎的 RTC 技术也因此针对新场景进行了针对性的升级和优化。

视频流与大模型在输入输出形式上存在明显差异：视频由一帧帧的图像组成，而当前的多模态大模型主要以理解单张图片为主，这要求模型能分析帧间的关系和时序，确保语义连续，从而需要不断 优化视频理解与关键帧提取算法，提升模型对动态场景的感知与处理能力。

在人与 AI 的对话中，AI 如何准确判断句子的结束时间、选择插话的时机也是一大挑战。人类可以凭借语境判断对方话语的结束，并通过音色识别说话者，过滤无关的噪声，而大部分 AI 系统仅依赖停顿的时长来判断，通常不够精确，因此需要引入智能语义判停和声纹降噪算法。

智能语义判停技术 能够根据语义判断用户的发言是否完整，从而确保模型不会过早做出回应。在以下案例中，用户可以停顿思考，而不会被豆包插话。

而 声纹降噪算法 则能在嘈杂环境中聚焦于目标说话者，屏蔽周围人声与噪声的干扰，将误打断率降低 15%-20%。

这些创新使得 AI 在音视频通话中的表现愈加接近人类的特性，也让用户在与豆包交谈时感受到更加流畅、自然、真实的互动体验。

随着大模型与 AI 应用的成熟，音视频已成为新一代 AI 交互中不可或缺的组成部分，这些交互方式所提供的沉浸式体验对用户具有天然的吸引力和亲和力。

在虚拟陪伴、智能玩具、智能家居、智能教育等广泛场景中，用户对于低延时、高质量、自然流畅的人机对话的需求日益增加，而火山引擎的 RTC 技术正是支撑复杂场景实时音视频交互的底层技术，保障用户体验的关键所在。