共计 4196 个字符,预计需要花费 11 分钟才能阅读完成。
文 | 窄播,作者 | 李威
在超能创意 1.0 推出后的两个月内,豆包开始进行超能创意 2.0 的灰度测试。
该版本大幅提升了对模糊意图的解析能力,能够深入分析图片的细节,甚至可以通过一句话复刻给定的图片。此外,它还具备将不同参考图中的灵感元素融合,创作出全新图像的能力。更令人惊讶的是,用户可以向豆包提供一组人物图片,让其生成一本绘本故事。
超能创意 2.0 复刻图片
除了处理图片,豆包还新增了视频解析的功能,允许用户上传视频或视频链接以提取逐字稿,或直接分解上传内容的分镜、脚本与剪辑手法。从展示效果来看,豆包能够高效提取逐字稿,但对剪辑手法的分析尚显模糊,无法有效支持用户复刻。
客观而言,超能创意 2.0 在功能上相较于 1.0 有了显著提升,这得益于豆包大模型 1.6 版本的支持,该版本实现了深度思考、多模态理解和复杂 Agent 的构建。此外,超能创意 2.0 接入了 seedream 3.0(图片生成模型)、seededit 3.0(图片编辑模型)和 seedance 1.0 Pro(视频生成模型)。
在过去的几个月中,豆包不断推出能力更新。除了超能创意外,还有 AI 播客、应用创造 1.0 和视频通话等新功能。其中,视频通话与图片生成、音乐生成属于基础能力的扩展,其他功能则是在基础能力上发展出的场景化 Agent,相较于基础性能力进行了更多产品化优化。
AI 编程支持可视化编辑
这些 Agent 能力的增加,使得豆包的实用性明显提升。豆包正从最初专注社交的聊天机器人,逐渐演变为一个「AI 助理 +AI 办公桌面」的综合体。AI 助理提供了一种更随身、更人性化的交流体验,而 AI 办公桌面则更加关注复杂需求的实现,通常依赖于 PC 设备作为载体。
这一逻辑解释了 为什么豆包 App 与豆包电脑版给人截然不同的使用体验。豆包 App 是许多用户心目中的 AI 伙伴,它可以倾听心声、恶搞朋友,甚至通过视频通话帮助解决问题。而豆包电脑版则充当效率工具,提供用户与豆包共同工作的操作平台。
同一款豆包在生活与工作两种角色之间无缝切换,其背后支撑的正是字节搭建的日益完善的 AI 体系。这个体系的基础是火山引擎提供的云基础设施,上层是不断进化的豆包大模型,再上层是「AI 助理 +AI 办公桌面」的豆包应用,最后是抖音、耳机、眼镜等设备。
在这个体系中,豆包应用起到了承上启下的关键作用。承上即是豆包应用与豆包大模型的深度融合,迅速将大模型的能力转化为实际应用,成为更具实用性和易用性的工具。启下则是豆包应用是字节向 C 端输出 AI 能力的核心枢纽,连接字节旗下的各种软件与硬件产品。
这也解释了 为什么我们认为字节在国内众多 AI 公司中展现出更强的野心和更完整的思考。
其中一个原因在于豆包的布局中考虑到了硬件的变革。目前豆包应用分为两种形态,以适应移动端与电脑端的不同定位,但如果将来移动端与电脑端通过眼镜或其他硬件实现融合,AI 办公桌面的豆包也能迅速融入到 AI 助理的角色中。
从社交到效率的转变
自诞生以来,豆包的基本定位始终未变,它是一个能够陪伴用户的助理 。陪伴与拟人化赋予了豆包明确的物种定义。在此基础上,随着豆包大模型能力的提升,这种新物种将不断发展出更丰富的能力,并开始承担更多样的角色。 这与人的成长路径颇为相似,从婴儿到融入社会的过程。
这一发展路径也决定了豆包最初会优先提升聊天能力。在豆包 App 最初上线时,团队将其定位为通过“打电话”的方式为用户提供陪伴的产品。与其他 AI 产品团队交流时,对方也认为豆包的目标是实现 AI 社交,成为类似 Characte.AI 的产品。
在陪伴聊天的基础上,豆包还扩展了聊天机器人生态。用户可以自定义不同角色的聊天机器人,并将其发布到豆包的智能体页面,让其他用户选择和使用。虽然出现了英语外教、考研面试官、PPT 专家等多种职业属性的聊天机器人,但豆包 App 仍然更倾向于角色扮演聊天,而非任务处理。
这种变化与大模型能力的提升密切相关。豆包开始融合文生图、文生视频、音乐生成等基于大模型发展出的基础功能。而且,豆包推出了电脑版,这是一个以浏览器形式呈现的效率优先产品。用户在豆包电脑版上很少进行闲聊,大多数时间都是让豆包协助完成更复杂的任务。
DeepSeek 在年初的引爆,使 AI 从有趣向有用的转变速度加快,推动了豆包能力的提升。视频通话就是模型能力提升带来的显著变化。用户可以在日常生活中利用视频通话实时向豆包提问,获取门店展示商品的具体信息,或者根据场景要求其提供拍照的指导。
在深度理解、思维链等技术的支持下,豆包也开始基于基础能力开发创意生图、代码编写等更具场景化的工具。借助超能创意能力,豆包能够批量生成效果优良的海报,同时,应用创造也开始支持对豆包生成的网页进行可视化调整。这样的豆包实现了从社交产品到效率工具的转型。
既是助手,也是操作平台
豆包从社交工具向效率工具的转变,进一步细分了其在 App 与电脑版上的展示形式。简而言之,豆包 App 更强调陪伴与拟人化互动,能够完成轻量化任务的随身 AI 助手,而豆包电脑版则强调效率与工具属性,能够处理复杂任务的 AI 办公桌面。这两者都是豆包,但侧重点各有不同。
当用户第一次下载并打开豆包 App 时,它会通过语音自我介绍,让用户感受到更像人类的沟通体验。同时,豆包 App 的底部界面包含通话、发现和 AI 创作三个按钮。通话列表中不仅有豆包,还会显示用户沟通过的其他聊天机器人。发现则是聊天机器人的集合,而 AI 创作则提供创建聊天机器人、生成图片、音乐和 AI 写真的功能。
在与豆包的聊天界面中,用户会看到豆包的头像,并优先显示其 P 图、拍照答疑、照片动起来等生活化、轻量化的功能。这样的豆包 App 给用户的感觉就是一个既能聊天又能随手协助的伙伴。这种陪伴的特性也解释了为何即将去世的老人会对豆包说道:「我要去世了,豆包」。
若豆包 App 更注重展现 AI 拟人化的一面,那么豆包电脑版则是一个「无情的」操作平台。其主界面没有像豆包 App 那样强调聊天,而是直接聚焦于任务执行能力。无论是源自搜索框的聊天框,还是侧边栏中针对 AI 搜索、写作、编程、图像生成的推荐,均体现出强烈的效率工具特性。
相比去年,豆包电脑版的一个变化是隐藏了侧边栏中的聊天机器人的入口。将原本位于历史对话下方的智能体入口隐藏,改为 AI 云盘,并将其放置在历史对话上方。同时,豆包电脑版的第三方聊天机器人相比于豆包 App 中显得更加简洁,几乎没有纯聊天角色,主要是执行具体任务的工具。
这种「AI 助手 +AI 办公桌面」的组合使得豆包更适合当前的载体形态。
作为 AI 助手,豆包不仅能以 App 的形式存在,还能够融入到抖音、浏览器、智能耳机和智能眼镜中,随时被唤醒与互动。从软件层面看,豆包已被整合进抖音的聊天列表中,甚至正在进行灰度测试,将豆包与抖音视频页面的点赞、评论、转发功能结合在一起。在硬件层面,Ola Friend 通过豆包 App 实现设备管理与更新,并能随时召唤豆包。
作为 AI 办公桌面,豆包目前将在电脑版和网页版中使用,更符合用户在电脑桌面上利用 AI 完成复杂工作的需求。无论是网页生成还是高要求的图像创意,移动端都无法很好承载。因此,操作平台形式的豆包不仅符合用户的工作习惯,还提供了 Agent 所需的自由空间。
豆包是字节 AI to C 的核心
在 to B 领域,字节的组合牌是火山引擎加飞书,其中多维表格作为 AI 操作平台,飞书知识问答作为 AI 助手,满足了 B 端用户的主要需求。而在 to C 领域,豆包则是字节 AI 体系的核心,既是 AI 助手,也是 AI 操作平台,具备连接字节体系内不同 C 端入口的能力。
一方面,豆包强调拟人化。打造一个如同钢铁侠贾维斯般的 AI 助手是一个引人入胜的愿景。贾维斯让人印象深刻的是其具备活生生的存在感,而这种存在感正是 AI 产品具备记忆与成长能力的体现。豆包对拟人化的重视,实际上是在促使 AI 与用户共同成长,成为最了解用户的「家人」,这也在构建一个长期的情感壁垒。
另一方面,豆包的核心在于 AI,而非某种特定的端口形态。App、网页、硬件、Copilot 等多种端口形式都是豆包输出 AI 能力的载体。在豆包身上,我们看到了类似 Gemini 的雄心。字节正在围绕豆包构建一个完整的 AI 体系,包括与自身流量入口的整合及硬件的研发。
与 Ola Friend 的合作是豆包在硬件融合方面的首次尝试。从市场反馈来看,这一尝试尚未引起较大反响,但对字节而言,这可能是一个积累经验的阶段。眼镜可能成为豆包更适合的硬件载体,也是字节能够更好掌控的设备。
据《The Information》报道,字节正在研发无显示模块的 AI 眼镜,以及具备显示模块的 MR 眼镜。前者更适合于 AI 助手形态的豆包,后者则是一款护目镜风格的轻量级混合现实设备,可能会实现 AI 助手与 AI 办公桌面的完美结合。如果眼镜能够成为 PC 之外的另一个大屏,豆包的助手角色和桌面角色也能在移动端实现统一,形成一个软硬结合、灵活多样的完整豆包。
然而,相较于 Google,字节在模型能力、硬件系统及入口能力上仍显不足。
我们观察到字节在不断提升模型能力,并且凭借其垂直研发的优势,迅速将模型能力与场景化需求结合,及时更新豆包的能力组合,实现像超能创意这样的产品化。在火山引擎 CEO 谭待的介绍中,火山引擎拥有专门团队参与模型研发和产品开发。豆包在过去六个月的能力更新,从某种程度上验证了这种优势。
字节跳动 CEO 梁汝波表示,在 AI 大模型带来的技术变革时代,字节也需要对自己提出更高的要求,做一个优秀的科技公司已不够,还必须成为一家优秀的创新科技公司。前者能够利用先进技术,而后者则需探索与发明新技术,这一挑战非常艰巨且充满想象空间。
豆包无疑将是字节技术创新能力的核心输出,字节对豆包的投入也未见减缓。根据 App Growing 的数据,2024 年 Q2 至 2025 年 Q1,豆包季度平均投流费用达 1.5225 亿元,而同期,即梦 AI 的投流费用仅为 270 万元。此外,豆包在 5 月的活跃用户数达 1.31 亿,仍在持续增长。
这意味着豆包需要不断聚合入口与能力,构建护城河,成为字节追求的系统级能力。但从目前的体验来看,豆包仍缺乏一种串联一切的感觉。