豆包首推AI播客，音频时代的崛起背后有何深意？

没有评论

共计 3524 个字符，预计需要花费 9 分钟才能阅读完成。

记者：陆彦君

编辑：吴洋洋

要点摘要

播客制作技术的变革将可能使这种内容更加普及，而不仅仅是因为制作过程变得简单；

播客的特点在于，它并非单人讲述，而是至少两人之间的对话；

对于那些希望构建社区而非仅仅作为生产工具的应用而言，AI播客提供了一个重要机会；

豆包在音频领域的投资中，AI播客只是其中的一部分；

用户通过语音发送信息或拨打电话的方式，恰好契合了下沉市场用户与AI进行互动的需求。

在昨天（6月17日），豆包推出了一项名为AI播客的新功能，用户只需上传文档或输入文章链接，即可轻松生成一段由AI模拟的双人对话播客音频。与去年9月Google在NotebookLM中推出的AI播客相比，豆包的播客显得更加自然，其甚至能够将复杂的英文技术论文转化为易懂的播客内容。

例如，若将字节跳动Seed-TTS团队的一篇18页英文技术论文发送给豆包或扣子，便可获得一段时长为3分56秒的中文播客，内容为两位AI主播对该论文的讨论。播客的开头音乐同样由系统自动生成，AI主播在对话中展现出的男女声音色和音调相当自然，甚至能够模仿人类的连接词如“然后”“这个”，其自然程度不亚于OpenAI去年5月发布的GPT-4o模型展示的对话能力。

在内容呈现方面，这段AI播客并非简单地逐字朗读原文，而是对内容进行总结，同时表达观点并引导对话。例如，当一位AI主播提到Seed-TTS（文本转语音）模型“可以生成与人类声音几乎无法区分的语音”时，另一位主播则回应道：“听上去很厉害，但我猜这还不是全部。”

传统播客的制作过程较为复杂，主播需要进行充分的研究，规划内容框架，一些主播甚至提前撰写逐字稿再进行录音，最后还需人工编辑。相较之下，利用AI生成播客的流程则极为简化——只需将材料“输入”AI，即可快速生成播客。

播客制作技术的革新或将推动这种内容更加流行，但这并非仅仅由于制作的简化。

图示：豆包生成的AI播客。

互动对话，胜于单向陈述？

根据商业数据平台Statista的统计，2024年中文播客的听众规模预计将达到1.34亿，相当于每100名互联网用户中有12人收听播客。这个比例虽然看似不高，却意味着大约八九成的用户依然通过图文和视频获取信息。然而，播客与传统音频产品的不同之处在于，它强调的是至少两个人之间的互动性。

有研究表明，用户对互动性内容的偏爱高于单向输出。2023年，Google推出了AI原生应用NotebookLM，起初它只是一个普通的AI助手，能够根据用户上传的内容生成摘要和解答。NotebookLM真正吸引关注的是2024年9月推出的AI播客功能——音频概述（Audio Overviews）。该功能允许用户上传PDF、Google文档、YouTube视频或音频文件等内容，随后这些文件将被转化为双人对谈的播客。根据Similarweb的数据，音频概述上线后一个月，NotebookLM的访问量增长超过200%，达到了3150万次。

紧接着，2024年11月，音频生成公司ElevenLabs推出了相似的AI播客功能GenFM，支持多达32种语言；随后在2024年12月，传统音频平台Spotify推出了年度回顾（Wrapped）功能，首次引入AI生成的播客版本，然而其背后的技术并非Spotify自研，而是来自Google的NotebookLM。今年1月，国内的理想同学App也推出了“听播客”功能，AI音频提供5种音色选择，但新闻来源仅限于虎嗅，用户暂时无法自主上传内容生成播客。豆包在今年5月也加入了这一竞争行列。

从技术层面来看，豆包在音色自然度上达到了业界领先水平，但在将长视频转化为播客时，其生成的音频内容相对简化。此外，豆包的PC端、App端和扣子空间目前尚未上线下载AI音频的功能。因此，用户只能在豆包应用内收听生成的播客，无法将节目下载后发布至其他平台。对于希望构建社区而非仅仅作为生产工具的应用，AI播客则呈现出一大机遇。

NotebookLM曾限制用户将生成的笔记和播客分享至其他平台，但本月初，NotebookLM修改了相关政策，开始允许用户通过公开链接分享自己创建的笔记或播客，以增强产品的传播效果。

豆包在音频领域的投资，AI播客只是其中之一

为实现将没有角色的文章转化为由两位主播对话的AI播客，字节推出了专门的“豆包·语音播客模型”。在模型的介绍中，字节表示该模型是豆包大模型语音语言技术的“重大场景化升级成果”。

豆包对语音能力的关注程度超越了国内其他相关产品。去年6月，字节大模型团队发布了一个语音生成基础模型——Seed-TTS（文本转语音）。研究团队指出，与传统的单一任务模型不同，“我们希望它（Seed-TTS）能够完成各种任务，发出任何声音，并允许我们在多个维度上进行调控，比如方言、口音，甚至语音中的瑕疵。”

今年1月，字节推出了端到端语音大模型，并基于该模型在豆包App中实现了实时语音通话功能，用户可以直接向豆包发送语音或拨打电话。这一功能契合了下沉市场用户与AI互动的需求。有用户向“新皮层”表示，她的父母会像发送微信语音那样向豆包发语音询问生活问题。另有用户提到，他会在参观博物馆时直接拨打豆包的电话，请求实时讲解文物。与豆包语音互动的短视频内容，也成为抖音平台上最受欢迎的AI类内容之一。多位业内专家对“新皮层”表示，语音功能提升了豆包在年轻用户中的渗透率。

在推出端到端语音大模型之前，豆包的语音通话功能采用的是ASR+LLM+TTS的技术方案：用户的语音输入通过ASR（自动语音识别）转化为文本，再通过LLM（大语言模型）生成对话文本，最后通过TTS（文本转语音）转换为语音输出。今年1月上线的端到端语音大模型则将上述多个环节整合在同一模型中，从而减少了交互延迟，并提升了对AI声音音色和情感的掌控能力。目前，国内多款语音生成产品依然采用ASR+LLM+TTS的方案。

在6月中旬的火山引擎大会AI应用专场论坛上，字节跳动语音产研负责人叶顺平表示，字节的语音技术涵盖音频生成与创作、音频理解与生成、音乐理解与生成三大领域，能够在语音助手、智能客服、在线教育、虚拟陪伴及有声内容生产等场景中创造价值，日均语音处理量大约达150亿次，已应用于超过30个行业。

在推出AI播客功能之前，字节跳动还将其AI语音技术应用于其他场景。例如，与演播圈的艺术家合作，基于他们的真实人声，使用豆包的语音模型制作有声书，并在番茄小说App中上架，以便习惯于通过听书的用户使用。

“语音不仅仅是工具，它是人类最直接的交互形式。”豆包大模型Seed-TTS团队在去年6月的内部访谈中提到。人们之间的情感连接更多依赖于语音。要实现真正的AI，语音的自然度至关重要，让人工智能真正成为人类的助手和伙伴，情感连接不可或缺——就像《钢铁侠》系列电影中的贾维斯一样。

除了小说电子书、角色设计、视频翻译、虚拟角色、播音、演员表达等关键词外，那次访谈中还提到了如何使口吃或失声的人也能通过语音技术表达自我。

-结束-

张楠卸任抖音CEO后首次公开亮相，力挺即梦

在张楠辞去抖音首席执行官职务后，他的首次公开活动吸引了众多关注。这位前CEO在此次活动中为即梦站台，展现了他对未来发展的信心和支持。

与此同时，字节跳动正在重塑其人工智能的核心战略，力图在这一竞争激烈的领域中保持领先地位。通过不断创新与整合，字节希望能在AI技术上取得更大的突破。

此外，字节公司还计划打造一个全新的agent平台，以满足日益增长的市场需求。同时，AI芯片制造商寒武纪在2023年第一季度的营收表现也相当亮眼，已经接近去年整年的业绩，显示出该行业的强劲增长潜力。

在当今瞬息万变的商业环境中，获取最新的市场动态显得尤为重要。我们不难发现，《第一财经》杂志凭借其深厚的行业背景和专业的分析，成为许多人了解经济趋势的首选媒体。

想要把握未来的商业机会，了解2025年的经济走向是不可或缺的环节。通过《第一财经》，读者可以深入分析各个行业的潜在变化，从而制定出更具前瞻性的商业策略。

此外，该杂志不仅提供了丰富的市场数据和专业见解，同时也邀请了众多行业专家分享他们的独到见解。读者能够在这里获取一手资讯，增强对市场的敏锐度。