豆包的雄心壮志初现端倪

共计 4196 个字符，预计需要花费 11 分钟才能阅读完成。

文 | 窄播，作者 | 李威

在超能创意 1.0 推出后的两个月内，豆包开始进行超能创意 2.0 的灰度测试。

该版本大幅提升了对模糊意图的解析能力，能够深入分析图片的细节，甚至可以通过一句话复刻给定的图片。此外，它还具备将不同参考图中的灵感元素融合，创作出全新图像的能力。更令人惊讶的是，用户可以向豆包提供一组人物图片，让其生成一本绘本故事。

超能创意 2.0 复刻图片

除了处理图片，豆包还新增了视频解析的功能，允许用户上传视频或视频链接以提取逐字稿，或直接分解上传内容的分镜、脚本与剪辑手法。从展示效果来看，豆包能够高效提取逐字稿，但对剪辑手法的分析尚显模糊，无法有效支持用户复刻。

客观而言，超能创意 2.0 在功能上相较于 1.0 有了显著提升，这得益于豆包大模型 1.6 版本的支持，该版本实现了深度思考、多模态理解和复杂 Agent 的构建。此外，超能创意 2.0 接入了 seedream 3.0（图片生成模型）、seededit 3.0（图片编辑模型）和 seedance 1.0 Pro（视频生成模型）。

在过去的几个月中，豆包不断推出能力更新。除了超能创意外，还有 AI 播客、应用创造 1.0 和视频通话等新功能。其中，视频通话与图片生成、音乐生成属于基础能力的扩展，其他功能则是在基础能力上发展出的场景化 Agent，相较于基础性能力进行了更多产品化优化。

AI 编程支持可视化编辑

这些 Agent 能力的增加，使得豆包的实用性明显提升。豆包正从最初专注社交的聊天机器人，逐渐演变为一个「AI 助理 +AI 办公桌面」的综合体。AI 助理提供了一种更随身、更人性化的交流体验，而 AI 办公桌面则更加关注复杂需求的实现，通常依赖于 PC 设备作为载体。

这一逻辑解释了 为什么豆包 App 与豆包电脑版给人截然不同的使用体验。豆包 App 是许多用户心目中的 AI 伙伴，它可以倾听心声、恶搞朋友，甚至通过视频通话帮助解决问题。而豆包电脑版则充当效率工具，提供用户与豆包共同工作的操作平台。

同一款豆包在生活与工作两种角色之间无缝切换，其背后支撑的正是字节搭建的日益完善的 AI 体系。这个体系的基础是火山引擎提供的云基础设施，上层是不断进化的豆包大模型，再上层是「AI 助理 +AI 办公桌面」的豆包应用，最后是抖音、耳机、眼镜等设备。

在这个体系中，豆包应用起到了承上启下的关键作用。承上即是豆包应用与豆包大模型的深度融合，迅速将大模型的能力转化为实际应用，成为更具实用性和易用性的工具。启下则是豆包应用是字节向 C 端输出 AI 能力的核心枢纽，连接字节旗下的各种软件与硬件产品。

这也解释了 为什么我们认为字节在国内众多 AI 公司中展现出更强的野心和更完整的思考。

其中一个原因在于豆包的布局中考虑到了硬件的变革。目前豆包应用分为两种形态，以适应移动端与电脑端的不同定位，但如果将来移动端与电脑端通过眼镜或其他硬件实现融合，AI 办公桌面的豆包也能迅速融入到 AI 助理的角色中。

自诞生以来，豆包的基本定位始终未变，它是一个能够陪伴用户的助理 。陪伴与拟人化赋予了豆包明确的物种定义。在此基础上，随着豆包大模型能力的提升，这种新物种将不断发展出更丰富的能力，并开始承担更多样的角色。 这与人的成长路径颇为相似，从婴儿到融入社会的过程。

这一发展路径也决定了豆包最初会优先提升聊天能力。在豆包 App 最初上线时，团队将其定位为通过“打电话”的方式为用户提供陪伴的产品。与其他 AI 产品团队交流时，对方也认为豆包的目标是实现 AI 社交，成为类似 Characte.AI 的产品。

在陪伴聊天的基础上，豆包还扩展了聊天机器人生态。用户可以自定义不同角色的聊天机器人，并将其发布到豆包的智能体页面，让其他用户选择和使用。虽然出现了英语外教、考研面试官、PPT 专家等多种职业属性的聊天机器人，但豆包 App 仍然更倾向于角色扮演聊天，而非任务处理。

这种变化与大模型能力的提升密切相关。豆包开始融合文生图、文生视频、音乐生成等基于大模型发展出的基础功能。而且，豆包推出了电脑版，这是一个以浏览器形式呈现的效率优先产品。用户在豆包电脑版上很少进行闲聊，大多数时间都是让豆包协助完成更复杂的任务。

DeepSeek 在年初的引爆，使 AI 从有趣向有用的转变速度加快，推动了豆包能力的提升。视频通话就是模型能力提升带来的显著变化。用户可以在日常生活中利用视频通话实时向豆包提问，获取门店展示商品的具体信息，或者根据场景要求其提供拍照的指导。

在深度理解、思维链等技术的支持下，豆包也开始基于基础能力开发创意生图、代码编写等更具场景化的工具。借助超能创意能力，豆包能够批量生成效果优良的海报，同时，应用创造也开始支持对豆包生成的网页进行可视化调整。这样的豆包实现了从社交产品到效率工具的转型。

豆包从社交工具向效率工具的转变，进一步细分了其在 App 与电脑版上的展示形式。简而言之，豆包 App 更强调陪伴与拟人化互动，能够完成轻量化任务的随身 AI 助手，而豆包电脑版则强调效率与工具属性，能够处理复杂任务的 AI 办公桌面。这两者都是豆包，但侧重点各有不同。

当用户第一次下载并打开豆包 App 时，它会通过语音自我介绍，让用户感受到更像人类的沟通体验。同时，豆包 App 的底部界面包含通话、发现和 AI 创作三个按钮。通话列表中不仅有豆包，还会显示用户沟通过的其他聊天机器人。发现则是聊天机器人的集合，而 AI 创作则提供创建聊天机器人、生成图片、音乐和 AI 写真的功能。

在与豆包的聊天界面中，用户会看到豆包的头像，并优先显示其 P 图、拍照答疑、照片动起来等生活化、轻量化的功能。这样的豆包 App 给用户的感觉就是一个既能聊天又能随手协助的伙伴。这种陪伴的特性也解释了为何即将去世的老人会对豆包说道：「我要去世了，豆包」。

若豆包 App 更注重展现 AI 拟人化的一面，那么豆包电脑版则是一个「无情的」操作平台。其主界面没有像豆包 App 那样强调聊天，而是直接聚焦于任务执行能力。无论是源自搜索框的聊天框，还是侧边栏中针对 AI 搜索、写作、编程、图像生成的推荐，均体现出强烈的效率工具特性。

相比去年，豆包电脑版的一个变化是隐藏了侧边栏中的聊天机器人的入口。将原本位于历史对话下方的智能体入口隐藏，改为 AI 云盘，并将其放置在历史对话上方。同时，豆包电脑版的第三方聊天机器人相比于豆包 App 中显得更加简洁，几乎没有纯聊天角色，主要是执行具体任务的工具。

这种「AI 助手 +AI 办公桌面」的组合使得豆包更适合当前的载体形态。

作为 AI 助手，豆包不仅能以 App 的形式存在，还能够融入到抖音、浏览器、智能耳机和智能眼镜中，随时被唤醒与互动。从软件层面看，豆包已被整合进抖音的聊天列表中，甚至正在进行灰度测试，将豆包与抖音视频页面的点赞、评论、转发功能结合在一起。在硬件层面，Ola Friend 通过豆包 App 实现设备管理与更新，并能随时召唤豆包。

作为 AI 办公桌面，豆包目前将在电脑版和网页版中使用，更符合用户在电脑桌面上利用 AI 完成复杂工作的需求。无论是网页生成还是高要求的图像创意，移动端都无法很好承载。因此，操作平台形式的豆包不仅符合用户的工作习惯，还提供了 Agent 所需的自由空间。

在 to B 领域，字节的组合牌是火山引擎加飞书，其中多维表格作为 AI 操作平台，飞书知识问答作为 AI 助手，满足了 B 端用户的主要需求。而在 to C 领域，豆包则是字节 AI 体系的核心，既是 AI 助手，也是 AI 操作平台，具备连接字节体系内不同 C 端入口的能力。

一方面，豆包强调拟人化。打造一个如同钢铁侠贾维斯般的 AI 助手是一个引人入胜的愿景。贾维斯让人印象深刻的是其具备活生生的存在感，而这种存在感正是 AI 产品具备记忆与成长能力的体现。豆包对拟人化的重视，实际上是在促使 AI 与用户共同成长，成为最了解用户的「家人」，这也在构建一个长期的情感壁垒。

另一方面，豆包的核心在于 AI，而非某种特定的端口形态。App、网页、硬件、Copilot 等多种端口形式都是豆包输出 AI 能力的载体。在豆包身上，我们看到了类似 Gemini 的雄心。字节正在围绕豆包构建一个完整的 AI 体系，包括与自身流量入口的整合及硬件的研发。

与 Ola Friend 的合作是豆包在硬件融合方面的首次尝试。从市场反馈来看，这一尝试尚未引起较大反响，但对字节而言，这可能是一个积累经验的阶段。眼镜可能成为豆包更适合的硬件载体，也是字节能够更好掌控的设备。

据《The Information》报道，字节正在研发无显示模块的 AI 眼镜，以及具备显示模块的 MR 眼镜。前者更适合于 AI 助手形态的豆包，后者则是一款护目镜风格的轻量级混合现实设备，可能会实现 AI 助手与 AI 办公桌面的完美结合。如果眼镜能够成为 PC 之外的另一个大屏，豆包的助手角色和桌面角色也能在移动端实现统一，形成一个软硬结合、灵活多样的完整豆包。

然而，相较于 Google，字节在模型能力、硬件系统及入口能力上仍显不足。

我们观察到字节在不断提升模型能力，并且凭借其垂直研发的优势，迅速将模型能力与场景化需求结合，及时更新豆包的能力组合，实现像超能创意这样的产品化。在火山引擎 CEO 谭待的介绍中，火山引擎拥有专门团队参与模型研发和产品开发。豆包在过去六个月的能力更新，从某种程度上验证了这种优势。

字节跳动 CEO 梁汝波表示，在 AI 大模型带来的技术变革时代，字节也需要对自己提出更高的要求，做一个优秀的科技公司已不够，还必须成为一家优秀的创新科技公司。前者能够利用先进技术，而后者则需探索与发明新技术，这一挑战非常艰巨且充满想象空间。

豆包无疑将是字节技术创新能力的核心输出，字节对豆包的投入也未见减缓。根据 App Growing 的数据，2024 年 Q2 至 2025 年 Q1，豆包季度平均投流费用达 1.5225 亿元，而同期，即梦 AI 的投流费用仅为 270 万元。此外，豆包在 5 月的活跃用户数达 1.31 亿，仍在持续增长。

这意味着豆包需要不断聚合入口与能力，构建护城河，成为字节追求的系统级能力。但从目前的体验来看，豆包仍缺乏一种串联一切的感觉。

来源：今日头条

原文标题：豆包的野心已经浮出水面 – 今日头条

原文链接：https://toutiao.com/group/7530466723028353576/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完