共计 2876 个字符,预计需要花费 8 分钟才能阅读完成。
智东西
作者 | 陈骏达
编辑 | 心缘
智东西在6月17日报道,豆包的电脑版及网页版正式推出AI播客功能。用户只需上传PDF或网页链接,便可轻松生成双人对话形式的播客节目。
功能上线后,智东西立刻对豆包的AI播客进行了测试。在实验中,豆包能够在3秒内将8万词的英文文档转换为播客节目,用户在对话界面中可以收听播客,同时豆包会实时生成后续内容。
生成的AI播客节目采用男女双人对话的形式,能够深入改编用户上传的网页和文件,使其更适合听众。
AI播客的对话流畅自然,并运用了许多语气词、附和及停顿,有效模拟了真实播客中的口语表达,提高了拟人化的效果。智东西了解到,这两个声音是由字节和专业播客创作者共同打造的。
然而,在测试中,我们也发现豆包AI播客存在一些问题。例如,生成的节目的信息密度较低,且存在大量重复的句子和语气词,长期收听可能会让用户感到乏味。
最近,智东西与字节跳动语音中台负责人郑炜明进行了交谈,他提到,未来豆包AI播客的收听体验将更为丰富,不仅限于简单的承接,还会有观点的碰撞与交流。团队正在开发不同风格的音色,探索音色克隆与风格定制等功能,将语种扩展至中文以外。
早前,豆包的AI播客模型已经在字节旗下的AI Agent平台扣子空间上线,并具备一句话生成播客的能力,支持自主查找相关话题并输出播客。
一、8万词PDF文件秒变播客,还能自主为节目“划重点”
豆包的AI播客功能入口位于输入框下方,点击后会出现两个选项。用户可以上传文件或将网页链接发送给豆包。但目前,豆包AI播客仅支持PDF文件的上传。
接下来,我们来听听生成效果。智东西将一份超过8万词、共140页的起诉书上传给豆包,经过数秒解析后,豆包迅速返回了可收听的播客播放器和一张播客封面图,完整生成一档播客大约需要1-2分钟,用户可以一边听一边等待,不影响收听体验。
经过多个案例的测试,智东西发现豆包生成的AI播客基本遵循固定的模式——女主持人掌控播客节奏、提出问题,男主持人负责阐述主要内容。
豆包AI播客生成的节目语言风格偏向于口语化,在收听时几乎感受不到原文件中正式甚至有些拗口的表达。尽管智东西上传的是一份英文文件,依旧没有明显的翻译腔。
在具体的收听体验上,用户可以听到AI主播通过调整语速等方式来突出重点信息。
此外,主播们还会加入一些语气词和情感表达,使得播客更加贴近真实对话。
对于网页转播客的功能,豆包AI播客能够输出良好的结果,不受网页上无关信息的干扰,基本上能准确反映网页的主要内容。
在智东西之前参与的内测中,豆包会在网页地址栏右侧提供“网页播客”的入口,但在公测版本中,该功能尚未上线。
二、可定制性与信息密度有待提升,未来可能扩展至多人对谈及单口播客
目前,豆包AI播客功能的提示词是固定的,用户无法提供更具体的建议,使得可定制化程度有所不足。目前的系统提示词仅为“生成播客”。
而且用户暂时无法直接导出豆包AI播客的生成结果。需要下载播客的用户可前往“扣子空间”进行体验,在该应用中,豆包AI播客及其封面可导出,并能查看具体的逐字稿。
智东西对不同长度文本进行测试,发现豆包生成的AI播客最长不会超过10分钟,大多数集中在5分钟左右。这导致了一些问题:若用户上传高信息量的长文档,内容可能会被过度压缩与省略;而上传简短内容时,豆包也会不知所措地讲上两三分钟。
在第一部分测试案例中,长文档的后半部分内容完全被省略。另一个案例中,智东西将一篇数百字的快讯发送给豆包,由于原本信息量不大,最终的生成结果显得较为单薄。存在大量语气词、口语化表达及模式化问答,导致信息密度有待提升。
快讯原文
此外,豆包提供的AI播客功能无法对已有话题进行补充或提供背景信息,这可能导致播客在内容的深度与广度上有所欠缺。
结语:AI播客已成热门发展领域
最近,AI播客已成为业内一个相对小众却吸引众多企业关注的赛道。除了字节的豆包AI播客,前不久,国内知名播客平台小宇宙也利用MiniMax的语音技术,测试了外语播客一键转中文收听的功能。而海外的谷歌NotebookLM生成播客功能更是吸引了一批忠实用户。
中国的播客市场正迅速增长,预计到2025年,中文播客听众的数量将突破1.5亿。AI播客有望通过为创作者提供便利和丰富的收听选择,进一步释放这一市场的潜力。
我们也让豆包将这篇文章转换为播客,一起来听听最终效果吧。