共计 2523 个字符,预计需要花费 7 分钟才能阅读完成。
记者:杨昕怡 编辑:余婷婷
在4月17日举行的火山引擎AI创新巡展杭州站,复杂的任务如解读上市公司财报、填写高考志愿、为家庭推荐露营设备以及为多人点餐等,都被搭载最新深度思考模型的豆包一一应对。
在发布会上,火山引擎的总裁谭待指出,豆包1.5·深度思考模型在数学、编程、科学推理等专业领域及创意写作等多种通用任务中表现优异,其在数学推理AIME 2024测试中的得分与OpenAI o3-mini-high持平。
与OpenAI o系列最新模型o3和o4-mini在多模态理解方面的深入探索相呼应,豆包的最新模型同样在发布会上被多次提及其多模态能力。谭待强调:“模型需要具备思考、计划和反思的能力,并且必须支持多模态,就像人类拥有视觉和听觉,智能体才能更有效地处理复杂任务。”
从OpenAI首个全功能智能体Operator到备受追捧的Manus,AI智能体正逐渐成为2025年行业关注的焦点。英诺天使基金的合伙人王晟在今年年初接受《每日经济新闻》采访时提到:“这一波新技术的最终应用就是智能体,我们对AI智能体的突破充满期待。”
火山引擎总裁 谭待 图片
为加速Agent的实际应用,火山引擎还推出了OS Agent解决方案和AI云原生推理套件。谭待在发布会后接受《每日经济新闻》采访时表示:“我们将持续优化模型以保持竞争优势,同时降低成本和延迟,提高吞吐率,使产品更易于落地。目前,我们正在全力推进HiAgent平台、云原生组件OS Agent等方面的工作。”
“多模态与深度推理结合”,豆包全新模型上线
新模型的性能自然成为各界关注的焦点。谭待在发布会上介绍,豆包1.5·深度思考模型在数学推理AIME 2024测试中获得的得分与OpenAI o3-mini-high相当,而在编程竞赛和科学推理测试中的成绩也接近o1。此外,在创意写作和人文知识问答等非推理任务中,该模型展现了出色的泛化能力。
技术报告显示,该新模型采用MoE(专家混合模型)架构,参数总量为200B,激活参数仅为20B,显著低于行业同类模型的50%,从而具备了明显的推理成本优势。同时,基于高效算法,该模型的API服务能够在维持高并发的情况下,实现20毫秒的极低延迟。
在应用场景方面,豆包1.5·深度思考模型突出了其边想边搜的能力以及视觉多模态能力。
《每日经济新闻》记者以“计划从北京出发,去日本关西地区进行为期5天的旅游,希望能看到花火大会、泡到特色温泉,请帮我规划一下行程”为提示词进行了实测,发现豆包在思考过程中能够自主拆解问题,并多轮搜索了花火大会的日期、温泉旅馆的预订情况及交通券的适用范围等信息。
谭待在发布会上举例说明:“除了边搜边想,豆包深度思考模型还具备视觉推理能力。它不仅可以基于文字进行思考,还能依据视觉图像进行全面分析。”他提到,豆包能够理解复杂的企业项目管理流程图,快速定位关键信息,并凭借强大的指令遵循能力,准确回答客户的问题。
北京市社会科学院副研究员王鹏在接受《每日经济新闻》采访时表示,具备多模态能力是未来推理模型的发展趋势,“这种能力使模型能够更全面地理解和处理复杂信息,广泛应用于金融、智能客服和医疗等领域。”
目前,豆包大模型家族已拥有15位“成员”,豆包App也成为国内AI原生应用的领军者。据QuestMobile在4月15日发布的数据显示,截至2025年2月底,我国AI原生应用的用户规模达到2.4亿,较1月份增长了1.15亿。而到2025年3月,豆包的月活跃用户达到了1.16亿,仅次于DeepSeek的1.94亿。
“Agent是必经之路”,火山引擎的助力方案是什么?
在发布会上,谭待还透露了豆包大模型的最新使用情况:截至2025年3月,豆包大模型日均tokens(词元)使用量超过12.7万亿,比发布初期增长超过106倍。
同时,国际数据公司IDC在今年4月发布的《中国公有云大模型服务市场格局分析,1Q25》报告中显示,2024年我国公有云上的大模型调用量将达到114.2万亿tokens,火山引擎以46.4%的市场份额位居第一。
针对这种超百倍的增长,谭待向《每日经济新闻》记者表示,从长远来看,火山引擎的大模型token调用量在未来仍将面临百倍甚至更高的增长空间,“具体需要多长时间,取决于模型是否能实现重大突破。”
他分析,去年到今年的快速增长源于几大突破:首先是基础聊天和信息处理能力的提升及成本降低,其次是深度思考功能的推出。谭待认为,未来大模型的迭代将迎来多个关键节点,“例如视觉推理能力是否能够进一步增强,Agent相关技术能否取得更大进展等。”
谭待指出,要让AI真正推动各个行业的变革,Agent是必不可少的。“在定义Agent时,能够完成打油诗、简单报告等任务的并不能称之为Agent。从定性上讲,Agent应该能够完成专业性较强、耗时较长的任务;从技术实现的角度来看,缺乏思考模型的应用、没有反思和规划能力的,也难以被认定为Agent。”
为了加速Agent的落地,火山引擎在此次发布会上推出了OS Agent解决方案,其中包括豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品。
记者注意到,在4月17日,豆包大模型团队发布并开源了基于UI-TARS增强的UI-TARS-1.5,目前已在7个典型的图形用户界面评测基准中取得了最先进的表现,并首次展示了其在游戏中的长时推理能力和开放空间中的交互能力。
最近,Claude母公司Anthropic推出的MCP(模型上下文协议)成为国内外顶尖厂商关注的焦点,阿里云、腾讯云等云服务商纷纷推出MCP服务。在群访中,谭待表示,火山引擎已支持该协议,他认为协议的统一至关重要,“如果能够实现统一协议,大家的应用开发将会更加迅速,模型调用也会更智能。”
“我们始终致力于成为AI时代最优秀的云服务商。”谭待表示,“只要保持在产品和技术上的领先,市场份额自然而然会居于前列。”
每日经济新闻