豆包深度思考模型：能否为AI Agent的进化开启全新视野？

共计 2523 个字符，预计需要花费 7 分钟才能阅读完成。

记者：杨昕怡编辑：余婷婷

在4月17日举行的火山引擎AI创新巡展杭州站，复杂的任务如解读上市公司财报、填写高考志愿、为家庭推荐露营设备以及为多人点餐等，都被搭载最新深度思考模型的豆包一一应对。

在发布会上，火山引擎的总裁谭待指出，豆包1.5·深度思考模型在数学、编程、科学推理等专业领域及创意写作等多种通用任务中表现优异，其在数学推理AIME 2024测试中的得分与OpenAI o3-mini-high持平。

与OpenAI o系列最新模型o3和o4-mini在多模态理解方面的深入探索相呼应，豆包的最新模型同样在发布会上被多次提及其多模态能力。谭待强调：“模型需要具备思考、计划和反思的能力，并且必须支持多模态，就像人类拥有视觉和听觉，智能体才能更有效地处理复杂任务。”

从OpenAI首个全功能智能体Operator到备受追捧的Manus，AI智能体正逐渐成为2025年行业关注的焦点。英诺天使基金的合伙人王晟在今年年初接受《每日经济新闻》采访时提到：“这一波新技术的最终应用就是智能体，我们对AI智能体的突破充满期待。”

火山引擎总裁谭待图片

为加速Agent的实际应用，火山引擎还推出了OS Agent解决方案和AI云原生推理套件。谭待在发布会后接受《每日经济新闻》采访时表示：“我们将持续优化模型以保持竞争优势，同时降低成本和延迟，提高吞吐率，使产品更易于落地。目前，我们正在全力推进HiAgent平台、云原生组件OS Agent等方面的工作。”

“多模态与深度推理结合”，豆包全新模型上线

新模型的性能自然成为各界关注的焦点。谭待在发布会上介绍，豆包1.5·深度思考模型在数学推理AIME 2024测试中获得的得分与OpenAI o3-mini-high相当，而在编程竞赛和科学推理测试中的成绩也接近o1。此外，在创意写作和人文知识问答等非推理任务中，该模型展现了出色的泛化能力。

技术报告显示，该新模型采用MoE（专家混合模型）架构，参数总量为200B，激活参数仅为20B，显著低于行业同类模型的50%，从而具备了明显的推理成本优势。同时，基于高效算法，该模型的API服务能够在维持高并发的情况下，实现20毫秒的极低延迟。

在应用场景方面，豆包1.5·深度思考模型突出了其边想边搜的能力以及视觉多模态能力。

《每日经济新闻》记者以“计划从北京出发，去日本关西地区进行为期5天的旅游，希望能看到花火大会、泡到特色温泉，请帮我规划一下行程”为提示词进行了实测，发现豆包在思考过程中能够自主拆解问题，并多轮搜索了花火大会的日期、温泉旅馆的预订情况及交通券的适用范围等信息。

谭待在发布会上举例说明：“除了边搜边想，豆包深度思考模型还具备视觉推理能力。它不仅可以基于文字进行思考，还能依据视觉图像进行全面分析。”他提到，豆包能够理解复杂的企业项目管理流程图，快速定位关键信息，并凭借强大的指令遵循能力，准确回答客户的问题。

北京市社会科学院副研究员王鹏在接受《每日经济新闻》采访时表示，具备多模态能力是未来推理模型的发展趋势，“这种能力使模型能够更全面地理解和处理复杂信息，广泛应用于金融、智能客服和医疗等领域。”

目前，豆包大模型家族已拥有15位“成员”，豆包App也成为国内AI原生应用的领军者。据QuestMobile在4月15日发布的数据显示，截至2025年2月底，我国AI原生应用的用户规模达到2.4亿，较1月份增长了1.15亿。而到2025年3月，豆包的月活跃用户达到了1.16亿，仅次于DeepSeek的1.94亿。

“Agent是必经之路”，火山引擎的助力方案是什么？

在发布会上，谭待还透露了豆包大模型的最新使用情况：截至2025年3月，豆包大模型日均tokens（词元）使用量超过12.7万亿，比发布初期增长超过106倍。

同时，国际数据公司IDC在今年4月发布的《中国公有云大模型服务市场格局分析，1Q25》报告中显示，2024年我国公有云上的大模型调用量将达到114.2万亿tokens，火山引擎以46.4%的市场份额位居第一。

针对这种超百倍的增长，谭待向《每日经济新闻》记者表示，从长远来看，火山引擎的大模型token调用量在未来仍将面临百倍甚至更高的增长空间，“具体需要多长时间，取决于模型是否能实现重大突破。”

他分析，去年到今年的快速增长源于几大突破：首先是基础聊天和信息处理能力的提升及成本降低，其次是深度思考功能的推出。谭待认为，未来大模型的迭代将迎来多个关键节点，“例如视觉推理能力是否能够进一步增强，Agent相关技术能否取得更大进展等。”

谭待指出，要让AI真正推动各个行业的变革，Agent是必不可少的。“在定义Agent时，能够完成打油诗、简单报告等任务的并不能称之为Agent。从定性上讲，Agent应该能够完成专业性较强、耗时较长的任务；从技术实现的角度来看，缺乏思考模型的应用、没有反思和规划能力的，也难以被认定为Agent。”

为了加速Agent的落地，火山引擎在此次发布会上推出了OS Agent解决方案，其中包括豆包UI-TARS模型，以及veFaaS函数服务、云服务器、云手机等产品。

记者注意到，在4月17日，豆包大模型团队发布并开源了基于UI-TARS增强的UI-TARS-1.5，目前已在7个典型的图形用户界面评测基准中取得了最先进的表现，并首次展示了其在游戏中的长时推理能力和开放空间中的交互能力。

最近，Claude母公司Anthropic推出的MCP（模型上下文协议）成为国内外顶尖厂商关注的焦点，阿里云、腾讯云等云服务商纷纷推出MCP服务。在群访中，谭待表示，火山引擎已支持该协议，他认为协议的统一至关重要，“如果能够实现统一协议，大家的应用开发将会更加迅速，模型调用也会更智能。”

“我们始终致力于成为AI时代最优秀的云服务商。”谭待表示，“只要保持在产品和技术上的领先，市场份额自然而然会居于前列。”

每日经济新闻

来源：今日头条