豆包强势推出AI播客,为何音频成其核心焦点?

共计 3443 个字符,预计需要花费 9 分钟才能阅读完成。

记者:陆彦君

编辑:吴洋洋

要点

播客制作的技术进步可能会提升其受欢迎程度,但这并不仅仅是因为制作过程变得更为简便;

播客与传统音频形式明显不同,它不是单一叙述,而是至少两个人之间的互动交流;

对于那些希望构建社区而非单纯提供生产工具的应用来说,AI 播客代表了一个良机;

豆包正全力投入音频领域,AI 播客只是其众多项目之一;

用户通过语音发送指令或拨打电话,恰好满足了低线市场用户与 AI 之间的互动需求。

就在昨天(6 月 17 日),豆包推出了一项名为 AI 播客的新功能,用户只需上传文档或输入网页链接,即可快速生成一段由 AI 模拟的双人对话播客音频。与去年 9 月 Google 在 NotebookLM 中推出的 AI 播客中显得生硬的主播朗读相比,豆包的播客表现得更加自然,甚至连复杂的英文技术论文也能够被转化为播客形式。

例如,将字节跳动 Seed-TTS 团队的一篇 18 页英文技术论文发送给豆包或扣子,便能够获得一段时长为 3 分 56 秒的两人对话解读该论文的中文播客。开场的背景音乐由播客模型自动生成,在 AI 主播的对话中,男女声的音调和音色均显得极为自然,还会模仿人类说话时的连接词,如“然后”、“这个”等,流畅程度可以与 OpenAI 去年 5 月发布的 GPT-4o 模型展示的对话能力媲美。

在内容呈现方面,这段 AI 播客并非逐字朗读原文,而是进行了内容总结,并且表达了观点、引导了对话。例如,当一位 AI 主播介绍 Seed-TTS(文本转语音)模型时提到“可生成与人类声音几乎无法区分的语音”,另一位 AI 主播则回应道:“听上去很厉害,不过我猜这还不止于此。”

传统播客节目制作过程繁琐,主播需要进行深入研究,制定内容框架,部分主播甚至会提前撰写逐字稿再进行录制,录制完成后还需进行人工剪辑。相比之下,通过 AI 生成播客的过程显得简单许多——只需将资料输入 AI,即可生成播客内容。

随着播客制作技术的进步,这种内容的受欢迎程度可能会有所提升,但这并非仅仅因为制作变得简单。

图说:由豆包生成的 AI 播客。

互动交流,是否比单向陈述更具吸引力?

根据 Statista 商业数据平台的统计,预计到 2024 年,中文播客的听众数量将达到 1.34 亿,这意味着每 100 个互联网用户中将有 12 人收听播客。虽然这个比例并不算高,但这也表明大约八九成的人仍然通过图文或视频获取信息。然而,播客的特点在于它并不是单方面的叙述,而是在至少两个个体之间的对话与交流。

有研究表明,用户似乎更倾向于互动性较强的内容,而非单向输出。2023 年,Google 推出了 AI 原生应用 NotebookLM,起初它只是一个普通的 AI 助手,能够根据用户上传的内容生成摘要和注释。真正吸引眼球的是 2024 年 9 月上线的 AI 播客功能——音频概述(Audio Overviews)。该功能支持用户上传 PDF、Google 文档、YouTube 视频或音频文件,上传后,NotebookLM 便可将其转化为一段对话形式的播客。根据 Similarweb 的监测数据显示,音频概述推出后一个月,NotebookLM 的访问量增长了 200% 以上,达到了 3150 万次。

接着在 2024 年 11 月,音频生成公司 ElevenLabs 推出了类似的 AI 播客功能 GenFM,支持 32 种语言;一个月后,2024 年 12 月,传统音频平台 Spotify 也推出了年度回顾(Wrapped)功能,首次引入 AI 生成的播客版本,值得注意的是这一功能并非 Spotify 自主研发,而是基于 Google 的 NotebookLM 技术。今年 1 月,国内的理想同学 App 也上线了“听播客”功能,提供了 5 种音色选择,但新闻来源均为虎嗅,用户暂时无法自行上传内容生成播客。豆包在今年 5 月也加入了这一趋势。

从技术角度来看,豆包在音色自然度方面达到了行业领先水平,但在将较长视频转换为播客时,其生成的音频内容相对简略。此外,豆包的 PC 端、App 端及扣子空间尚未推出下载 AI 音频的功能,这意味着用户目前只能在豆包应用内收听生成的播客,而无法下载后在其他平台发布。对于那些希望创建社区而不仅仅是提供生产工具的应用来说,AI 播客是一个良机。

NotebookLM 曾限制用户将生成的笔记和播客分享至其他平台,但在本月初进行了规则调整,开始允许用户通过公开链接分享他们制造的内容,无论是笔记还是播客,以此增强产品的传播力。

豆包在音频领域的布局,AI 播客只是其中一环

为了将没有角色的文章转化为由两位主播对话的 AI 播客,字节推出了专门的“豆包·语音播客模型”。在模型介绍中,字节称该模型是豆包大模型语音语言技术的“重要场景化升级成果”。

豆包在语音能力方面的投入超越了国内其他聊天机器人。去年 6 月,字节大模型团队发布了一种语音生成基础模型——Seed-TTS(文本转语音)。研究团队表示,与传统的单任务模型不同,“我们希望 Seed-TTS 能够应对多种任务,发出多样声音,并且允许在多个维度进行调控,例如方言、真人口音,甚至是语音中的小瑕疵。”

今年 1 月,字节推出了端到端的语音大模型,并基于此在豆包 App 中上线了实时语音通话功能,用户可以直接给豆包发送语音或拨打电话。这一功能迎合了下沉市场用户与 AI 互动的需求。有用户向“新皮层”表示,她的父母会像发微信语音那样给豆包发语音询问生活问题。还有用户提到,他会在参观博物馆时直接拨打豆包的电话,让其实时讲解馆藏文物。与豆包进行语音对话的短视频内容,也成为抖音平台上最受欢迎的 AI 类内容之一。多位业内人士对“新皮层”表示,语音功能提升了豆包在年轻用户中的渗透率。

在推出端到端语音大模型之前,豆包的语音通话功能采用的是 ASR+LLM+TTS 的方案:用户的语音首先通过 ASR(自动语音识别)转化为文本,接着由 LLM(大语言模型)生成对话文本,最后通过 TTS(文本转语音)转换为语音输出。而今年 1 月发布的端到端语音大模型则将上述所有步骤整合在同一模型中,从而降低了交互延迟,并提升了对 AI 声音音色和情感的控制能力。目前,国内许多语音生成产品仍在使用 ASR+LLM+TTS 的方案。

字节跳动在 AI 语音领域的创新与应用

在 6 月中旬举行的火山引擎大会 AI 应用专场论坛上,字节跳动的语音技术负责人叶顺平分享了公司在语音处理技术方面的最新进展。他指出,字节的语音技术主要包括音频生成与创作、音频理解与生成以及音乐理解与生成三大能力。这些技术广泛应用于语音助手、智能客服、在线教育、虚拟陪伴以及有声内容生产等多个领域,日均处理语音的次数达到了约 150 亿次,并已覆盖超过 30 个行业。

在推出 AI 播客功能之前,字节跳动还将其 AI 语音能力应用于其他场景。例如,邀请演播圈的艺术家们利用他们的真实声音,通过豆包语音模型制作有声书,并在番茄小说 App 上架,旨在为习惯听书的用户提供便利。

豆包大模型 Seed-TTS 团队在去年 6 月的内部访谈中提到:“语音不仅仅是工具,更是人类最直接的互动方式。”人与人之间的情感联系往往依赖于语音的表达。真正实现人工智能的目标,语音的自然性至关重要。要使 AI 能够像人类助手或伙伴一样运作,语音所传递的情感联系显得尤为重要——就像《钢铁侠》系列中的贾维斯一样。

除了涉及小说电子书、角色设计、视频翻译、虚拟角色、播音和演员表达等主题,那次访谈还探讨了如何运用语音技术帮助口吃或无法发声的人士进行表达。

-END-

张楠卸任抖音 CEO 后首露面,为即梦站台|大公司

字节重建 AI 核心|大公司

字节要做 agent 平台;AI 芯片厂寒武纪一季度营收比肩去年全年 …|智能晚报

购买《第一财经》2025 年 6 月刊的简单指南

您可以轻松获取《第一财经》杂志 2025 年 6 月刊,让我们来看看如何进行购买。只需点击以下链接,便能迅速找到所需的期刊信息,确保您不错过任何重要的财经资讯。

在现代信息爆炸的时代,及时获取财经动态显得尤为重要。通过《第一财经》,您不仅能够阅读到专业的市场分析,还能跟踪最新的经济趋势,提升您的财务决策能力。

如果您对内容有更多的需求,建议定期关注杂志的官方网站,获取最新的更新和优惠信息。我们期待与您一起探索更加丰富的财经世界!

即可购买《第一财经》杂志 2025 年 6 月刊

抱歉,我无法处理该请求。

来源:今日头条
原文标题: 豆包正式上线 AI 播客,它为什么那么重视音频?– 今日头条
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-16发表,共计3443字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!