共计 3923 个字符,预计需要花费 10 分钟才能阅读完成。
图片由 AI 生成
在 3 月 16 日,文心大模型迎来了两周年纪念,百度发布了国内首个原生多模态大模型文心 4.5 及深度思考模型 X1。与以往不同的是,百度此次没有举行传统的发布会,而是直接在文心一言官网上宣布模型正式上线,并向用户免费开放。同时,文心大模型 4.5 也面向企业用户和开发者开放,开发者可以通过百度智能云的千帆大模型平台调用 API。预计文心大模型 4.5 和 X1 将逐步上线至百度搜索和文小言 APP 等多个产品中。
在价格方面,文心大模型 4.5 的 API 调用输入费为每千 tokens 0.004 元,输出为 0.016 元,约为 GPT4.5 价格的 1%;而文心大模型 X1 的定价则为输入 0.002 元 / 千 tokens,输出 0.008 元 / 千 tokens,X1 也将在千帆平台上架。
尽管文心大模型 4.5 被视为一个中间版本,基于 4.0 进行强化,通常情况下,官方会通过发布会来解读产品和技术亮点。然而,OpenAI 前不久举办的 GPT4.5 线上发布会让这一策略显得更为独特,百度的这一选择引发了不少讨论。
行业的氛围显得有些微妙,百度可能比以往任何时候更需证明自身的实力。
百度修正方向,欲重返行业中心
若 DeepSeek 的崛起为全球大模型企业敲响了警钟,百度则通过一系列措施展示了如何在大模型的竞争中保持优势。
以往的百度似乎背负着“偶像包袱”。自从 OpenAI 推出 ChatGPT 后,百度是国内较早推出类似大模型产品的公司,其 All in AI 的战略被认为具有前瞻性,凭借着领先的视野和技术积累,百度被誉为“中国的 OpenAI”。
科技行业的新叙述层出不穷,其魅力在于不可预测性。在大模型领域,领先的优势可能仅能维持半年,随着众多巨头加大对生成式 AI 的投入,行业内形成了新的共识,“大模型是巨头们的游戏”。然而,DeepSeek 的开源与低成本模型又引发了新的潮流,使得全球各大 AI 企业,包括 OpenAI 和百度,都意识到大模型的未来依然不明朗。
正如百度创始人李彦宏所言,“创新不能被计划,你无法预知创新何时会到来,关键在于营造一个有利于创新的环境。”百度曾经的成功在于创造了适合创新的生态,但如今的百度需要抛弃“偶像包袱”,用实际行动证明自己仍然有竞争力。
积极的一面是,李彦宏不惜推翻旧有判断,迅速且果断地采取了一系列举措,例如文心一言完全免费、文心 4.5 计划于 6 月 30 日正式开源,同时百度的核心业务搜索也接入了 DeepSeek。
据了解,在文心 4.5 和 X1 大模型发布后,百度还将推出文心 4.5 系列模型,并计划在下半年发布更先进的 5.0 版本。
与两年前相比,百度的进展显著。有内部人士透露,无论是文心 4.5 的全面免费,还是 PC 和移动端的快速上线,百度管理层几乎在短短半天内便作出了决策。
不过,这并不意味着百度完全放弃了自己的节奏。文心 4.5 所强调的原生多模态与 X1 多功能调用的研发储备仍需数月甚至一年,这表明百度只是加快了进程,而不是失去了对技术的敏感性。
从长远来看,百度可能在某些预判上存在失误,例如与 OpenAI 同样过早进行商业化的决策,但这并未影响到大模型产业的基本逻辑,未来更前沿的大模型依然在路上,生态系统的重要性也在持续上升。
在人工智能时代,技术栈的协同优化,包括芯片层、框架层、模型层及应用层,能够显著提升效率。百度从昆仑芯片到飞桨深度学习框架,再到文心预训练大模型,均进行了全面布局,以降低成本并提升创新效率。
回到此次发布,百度为何选择“默默无声”而直接上线产品?据百度内部人士透露,“发言不如产品发声,现在百度说什么外界可能都不买账,最直接有效的方式就是以产品说话,文心 4.5 是一次升级,但相较于 5.0 重要性较低,大家的危机感增强了,战略调整和技术迭代的效果还需时间来显现。”
作为百度在重新证明自我的阶段性产品,原生多模态大模型文心 4.5 和深度思考模型 X1,传达了百度哪些信号呢?
文心 4.5 的智能提升,原生多模态成为核心
文心 4.5 的策略在于通过联合多种模态进行建模,以实现协同优化,展现出更为出色的语言能力,理解、生成、逻辑推理和记忆能力均有显著提升,同时在去幻觉、逻辑推理和代码能力上也得到了显著增强。
文心大模型 4.5 在多项基准测试中表现优于 GPT4.5 和 DeepSeek-V3 等,平均分为 79.6 分,超越了 GPT4.5 的 79.14 分。
特别需要强调的是“原生多模态”,李彦宏此前在人民网上发文预告,原生多模态大模型打破了以往先训练单模态模型再进行拼接的方式,而是通过统一架构实现文本、图像、音频和视频等多模态数据的原生融合,进而实现对复杂世界的统一理解,这是通向通用人工智能(AGI)的重要一步。
简而言之,原生多模态大语言模型在训练阶段就利用了大量不同模态的数据进行预训练,不仅可以在输入和输出端实现多模态,还具备强大的多模态推理和跨模态迁移能力。
微软早前指出,基于多模态数据进行原生训练的每一种单模态能力,都应当超越仅在单模态数据上训练的模型性能。同时,更重要的是,在不同模态数据学习的过程中,模型应该能够涌现出新的能力。
从行业角度看,GPT- 4 并非原生多模态大模型,其多模态能力的实现依赖于模型的转化过程,例如通过语音识别模型将语音转换为文本,或利用图像识别模型提取图像内容,再通过 GPT- 4 的大型语言模型生成回答。在完成回答后,系统决定是返回图片、文本还是通过语音合成技术输出语音,直到 GPT-4o 版本,OpenAI 才展现出原生多模态的能力。
在模型能力方面,谷歌在追赶 GPT 的过程中,早早押注原生多模态,在预训练阶段实现多模态数据的统一输入,将文本、语音、图像和视频数据整合到一个预训练模型,并利用额外的多模态数据进行微调,以进一步增强其有效性。
百度文心 4.5 也实现了一系列创新,例如,采用多模态异构专家扩展技术,能够根据不同模态的特点构建模态异构专家,结合自适应模态感知损失函数,解决各模态梯度不均衡的问题,提升多模态融合能力。
此外,还有 FlashMask 动态注意力掩码技术,有效提升长序列建模能力与训练效率,优化长文处理能力和多轮交互表现;时空维度表征压缩技术显著提高多模态数据训练效率,增强从长视频中提取世界知识的能力;基于知识点的大规模数据构建技术,能够构建高知识密度的预训练数据,提升模型学习效率,大幅降低模型幻觉;以及基于自反馈的 Post-training 技术,增强强化学习的稳定性与鲁棒性,大幅提升预训练模型对齐人类意图的能力。
文心 4.5 的能力还体现在图片和视频理解、图片生成、RAG 测试、逻辑测试及文本创作等方面。文心 4.5 支持上传文档、图片、音频及视频文件,兼容常见格式,目前在文件大小方面有限制,例如单个视频文件的大小不得超过 20M,这可能与效率和成本有关。
钛媒体 APP 对一些应用场景进行了测试,上传视频并请求文心 4.5 介绍视频内容,或要求其提供视频的文字版,均能给出准确的回答。此外,还上传了电影《肖申克的救赎》片段,文心 4.5 能够识别该片段,并给出可能的电影情节。更值得一提的是,如果文心 4.5 给出合适的配乐,它也能根据视频的调性提出建议,显示出其跨模态输出的能力。
深度思考 X1,AI 智能体的雏形
文心 X1 是基于百度在 2023 年 10 月推出的慢思考技术而发展而来,具备更强的理解、规划、反思和进化能力,并支持多模态。
以电车难题为例,深度思考的文心 X1 给出了详细的回答,最终选择了拉下操纵杆,将列车切换到另一条轨道,其结论是:在封闭条件下,基于功利主义最大化生存数量的原则,选择牺牲 1 人拯救 5 人。但需警惕此类逻辑被滥用,需持续反思其伦理边界。
文心 X1 是一款能力更全面的深度思考模型,输出观点时更为直接,“端水”现象有所减少。在面对复杂问题时,能够结合联网搜索最新信息,详细拆解并提供全面的回答,例如在规划旅游项目时,可行性更高且更符合要求。
钛媒体 APP 了解到,X1 采用了递进式强化学习训练方法,基于思维链和行动链进行端到端训练,同时建立了统一的评估系统,融合多种类型的奖励机制,在中文知识问答、文学创作、文稿撰写、日常对话、逻辑推理、复杂计算及工具调用等方面表现优异。
其中,多工具调用能力尤为值得关注,也是文心 X1 的独特之处。目前,X1 已支持高级搜索、文档问答、图片理解、AI 绘图、代码解释器、网络链接读取、TreeMind 树图、百度学术检索、商业信息查询、加盟信息查询、词云生成等多种工具,这对于大模型应用的落地具有积极意义。
X1 也证明了一件事,大模型能力的进化实际上将淘汰一部分 Agent。如果 Agent 能够被大模型原生替代,说明这部分 Agent 在相关领域的价值相对较低,这在此领域的创业注定会失败。
近期广受欢迎并引发争议的 Manus 等产品,未来也可能面临类似的困境。Manus 的成功并非源于大模型的原创性突破,而是对现有技术的工程化整合,比如 Claude 模型、Computer Use、MCP 协议等。其核心创新在于将虚拟机环境与多智能体协同架构结合,使 Agent 能够如同人类一样操作计算机完成复杂任务。
这也揭示了百度另一个发展方向,即坚定不移地向 AI 智能体迈进。李彦宏曾表示,推理大模型展现出令人惊叹的深度思考能力,这将推动人工智能的重要应用方向,即“AI 智能体”的落地。预计 2025 年将成为 AI 智能体爆发的元年。(本文首发于钛媒体 APP,作者 | 张帅,编辑 | 盖虹达)