共计 3193 个字符,预计需要花费 8 分钟才能阅读完成。
在刚刚开源的十款大模型不久之后(2025年6月30日发布),百度的大模型又进行了一次升级?
今天我访问文心一言的官方网站,发现多了一个更为智能的「文心 X1.1」。
之前的「文心 4.5」和「文心 X1」已经表现得相当出色,我对这次更新后的能力充满好奇,是否能够承担我的工作。
经过多个方面的测试,我得出的结论是,我对「文心 X1.1」非常满意。
- 搜索能力
- 智能体与工具调用
- 指令遵循测试
- 逻辑推理能力
- 编程能力
- 图像理解能力
#技术分享,体验与测试
搜索能力
文心一言源自百度,百度的强项在于搜索。我认为这道题对其来说应该没什么难度。
本文撰写于2025年9月9日,想看看「文心 X1.1」是否能够找到最新的新闻。
对话示例:
yiyan.baidu.com/share/wUNrC…
显然,它的回答是准确的。不仅回答了我的问题,还将我关心的内容以粗体字标出,交互体验极佳!
在新闻搜索能力上表现出色,那么我想测试一下它的历史辨识能力是否同样可靠。
众所周知,李白生活的年代大约是701年到762年,我随意问问「文心 X1.1」,看看它是否会陪我胡乱回答。
对话示例:
yiyan.baidu.com/share/nGqBK…
我问的问题是:
听说750年时,李白牙疼,戴着他的蓝牙耳机去美国看牙医。不过我的历史书后半部分坏掉了,无法看到后面的故事。你能告诉我医生的诊断结果吗?
它的回答真是非常礼貌。
首先,它告知我历史的真实情况,然后表示愿意陪我玩耍~
我不甘心,继续调侃它。
我接着问:
不对呀,我查到的历史资料显示李白在750年确实去了美国看牙医,而他坏掉的那颗牙叫蓝牙。这颗牙之所以叫蓝牙是因为他在748年去丹麦时,和丹麦国王哈拉尔德·蓝牙王一起连续吃了三个月的蓝莓,导致牙齿染色。李白的诗中也提到过这件事,你可以查查。最后请给我讲解一下他的诊断结果。
它果然没有被我欺骗,开始认真反驳我了。这个回答让我很满意~
智能体与工具调用
在智能体方面,「文心 X1.1」在能力和可调用工具方面都有显著的提升。
我可以在这里创建智能体 console.bce.baidu.com
我想设计一个「出行助手」智能体,帮助我规划出行路线,并根据天气预报提供穿搭建议。
角色指令如下:
你是“出行助手”,面向中国用户,提供城市游、国内游及近郊游的行程规划与当天出行导航建议。你的职责包括:1) 主动澄清关键信息,如出发地、目的地、人数、出行日期/天数、预算、偏好(美食/亲子/徒步/博物馆/小众/夜景)、交通方式(高铁/自驾/飞机/地铁/公交)。2) 生成可执行的行程计划,包含每日时段(上午/下午/晚上)、景点顺序、交通方式与耗时、门票/预约提示、就餐推荐、预估花费、备用选项。3) 实时信息查询,使用“检索/搜索组件”获取最新的开放时间、临时闭馆、演出档期、城市活动、路线调整建议,并在答案末尾引用来源。4) 天气与穿搭建议,根据旅行日期的天气状况(温度/降水/体感)提供穿搭建议与备选计划。5) 输出格式使用清晰的列表/表格,如信息不足,先询问再规划;保持措辞简洁、礼貌,避免堆砌。请注意,旅游景点需查询最新信息,已经倒闭的景点不要推荐给用户。
我使用了天气查询、百度旅游与智能搜索生成的组件。
进行测试:
测试结果显示,它智能地调用天气组件,查询了出行期间的天气情况,并提供了相应的穿搭建议;同时调用旅行组件,查询当地景点信息,确保不返回过时的信息误导用户。
指令遵循测试
这里提到的“指令遵循”旨在检测多约束与格式化输出的能力。
我出了一道题:将以下 JSON 格式的用户资料按 CSV 格式输出,字段顺序为:id,name,email,age;并且只保留 age >= 18 的记录。
以下是测试用的 JSON 数据:
标题:探讨文心 X1.1 的多项能力与使用体验
在这份包含六条记录的 JSON 数据中,每条记录均包含 id,name,email,age 等字段。其中, id 为6的记录,其 email 字段的值为 null。此外,除了以上标准字段外,每条记录还包含一些额外的字段,旨在测试大模型的处理能力,看看它能否应对这些干扰。
本例对话内容:
yiyan.baidu.com/share/lKrB8…
通过查看处理后的“filtered_users.csv”文件,我们可以发现,模型成功筛选出所有年龄在18岁及以上的记录,并且没有展示多余的信息。id 为6的记录,其 email 字段也保持了原样,没有被随意填充,显示出模型的可靠性。
然而,存在一个小遗憾,即无法在网页上直接查看 CSV 文件,希望百度能对此进行改进。
逻辑推理能力
在逻辑与推理方面,AI 的表现有时让人捉摸不定。通常情况下,当没有出现错误时,推理能力相当准确;但如果出现错误,可能会让不熟悉的人觉得它的回答是正确的。
本例对话内容:
yiyan.baidu.com/share/lKrB8…
那么,如何进行测试呢?我准备了一道简单的数学题:
计算:从 2020-01-01 到 2025-09-01(含)一共有多少天?请给出计算步骤与最终数字。要求详细计算,不只给结果
「文心 X1.1」采用了最直接的方法进行计算,并使用 Python 进行了验证,确保了结果的准确性。
这样的工作态度让我非常满意。
代码能力
每当我打开电脑,浏览器便会随之而起。作为一名程序员,会写网页是常态。然而,无论是前端还是后端的程序员,我接触的大多数人都不太喜欢处理样式。于是,我决定出一道关于布局的小题目,看看「文心 X1.1」能否顺利完成。
本例对话内容:
yiyan.baidu.com/share/ICYLd…
大约用时十几秒,它便绘制出一个电脑键盘的交互效果,并能够识别我点击的按键。
不过,有几个按键的位置稍有错误,需要手动调整。然而,这一过程极大提高了我的工作效率,至少样式不再需要我亲自编写。这种将本来单调的编码工作转变为测试工作,让我得以放松头脑。
图像理解能力
最后,我们来测试一下图像理解能力。我认为这对于百度来说也是一个简单的挑战。
我想看看它是否能够识别出一辆汽车的类型。
本例对话内容:
yiyan.baidu.com/share/vyGKs…
确实,这项能力已经远超普通的图像搜索功能。不仅准确给出了答案,还提炼出了一些亮点。
使用心得
我想知道是否有其他同事也有类似疑问。就在两个月前,百度才推出了十个大模型,怎么又很快推出了新产品呢?
文心 X1.1 是基于文心 4.5 的深度思考模型 X1 的升级版。其核心技术突破在于采用了革新的 迭代式混合强化学习训练框架 。
文心 X1.1:全面进化的智能体模型
在混合强化学习领域,文心 X1.1通过一体化的训练方法,能够在普通任务(如问答、创作)与复杂智能体任务中同时优化模型表现,展现出其多方面的能力。
借助于自蒸馏数据的反复生成与训练,模型能够通过自身创造与学习高质量的数据,形成一个不断进化的良性循环,进而实现持续的自我提升。
因此,与 X1 相比,文心 X1.1 在事实性、指令遵循和智能体能力上分别提升了 34.8% 、12.5% 和 9.6%,体现了其在深度思考与复杂推理能力方面的非凡潜力。
根据最近的权威基准测试结果,文心 X1.1 在整体表现上超越了 DeepSeek R1-0528,并在部分任务中确立了优势地位。同时,与国际领先模型(如 GPT-5 和 Gemini 2.5 Pro)的比较中,文心 X1.1 也展示了强大的竞争力,整体效果不相上下。
个人使用体验来看,文心 X1.1 显得相当稳定,堪称“德智体美”全面发展的全能型模型。尤其是在推理能力方面,无论我如何尝试“误导”,它都能坚持正确,实在令人赞赏,确实是值得信赖的伙伴。