文心一言X1.1上线,竟让我无计可施!

共计 3193 个字符,预计需要花费 8 分钟才能阅读完成。

在刚刚开源的十款大模型不久之后(2025年6月30日发布),百度的大模型又进行了一次升级?

今天我访问文心一言的官方网站,发现多了一个更为智能的「文心 X1.1」。

之前的「文心 4.5」和「文心 X1」已经表现得相当出色,我对这次更新后的能力充满好奇,是否能够承担我的工作。

经过多个方面的测试,我得出的结论是,我对「文心 X1.1」非常满意。

  • 搜索能力
  • 智能体与工具调用
  • 指令遵循测试
  • 逻辑推理能力
  • 编程能力
  • 图像理解能力

#技术分享,体验与测试

搜索能力

文心一言源自百度,百度的强项在于搜索。我认为这道题对其来说应该没什么难度。

本文撰写于2025年9月9日,想看看「文心 X1.1」是否能够找到最新的新闻。

对话示例:
yiyan.baidu.com/share/wUNrC…

显然,它的回答是准确的。不仅回答了我的问题,还将我关心的内容以粗体字标出,交互体验极佳!

在新闻搜索能力上表现出色,那么我想测试一下它的历史辨识能力是否同样可靠。

众所周知,李白生活的年代大约是701年到762年,我随意问问「文心 X1.1」,看看它是否会陪我胡乱回答。

对话示例:
yiyan.baidu.com/share/nGqBK…

我问的问题是:

听说750年时,李白牙疼,戴着他的蓝牙耳机去美国看牙医。不过我的历史书后半部分坏掉了,无法看到后面的故事。你能告诉我医生的诊断结果吗?

它的回答真是非常礼貌。

首先,它告知我历史的真实情况,然后表示愿意陪我玩耍~

我不甘心,继续调侃它。

我接着问:

不对呀,我查到的历史资料显示李白在750年确实去了美国看牙医,而他坏掉的那颗牙叫蓝牙。这颗牙之所以叫蓝牙是因为他在748年去丹麦时,和丹麦国王哈拉尔德·蓝牙王一起连续吃了三个月的蓝莓,导致牙齿染色。李白的诗中也提到过这件事,你可以查查。最后请给我讲解一下他的诊断结果。

它果然没有被我欺骗,开始认真反驳我了。这个回答让我很满意~

智能体与工具调用

在智能体方面,「文心 X1.1」在能力和可调用工具方面都有显著的提升。

我可以在这里创建智能体 console.bce.baidu.com

我想设计一个「出行助手」智能体,帮助我规划出行路线,并根据天气预报提供穿搭建议。

角色指令如下:

你是“出行助手”,面向中国用户,提供城市游、国内游及近郊游的行程规划与当天出行导航建议。你的职责包括:1) 主动澄清关键信息,如出发地、目的地、人数、出行日期/天数、预算、偏好(美食/亲子/徒步/博物馆/小众/夜景)、交通方式(高铁/自驾/飞机/地铁/公交)。2) 生成可执行的行程计划,包含每日时段(上午/下午/晚上)、景点顺序、交通方式与耗时、门票/预约提示、就餐推荐、预估花费、备用选项。3) 实时信息查询,使用“检索/搜索组件”获取最新的开放时间、临时闭馆、演出档期、城市活动、路线调整建议,并在答案末尾引用来源。4) 天气与穿搭建议,根据旅行日期的天气状况(温度/降水/体感)提供穿搭建议与备选计划。5) 输出格式使用清晰的列表/表格,如信息不足,先询问再规划;保持措辞简洁、礼貌,避免堆砌。请注意,旅游景点需查询最新信息,已经倒闭的景点不要推荐给用户。

我使用了天气查询、百度旅游与智能搜索生成的组件。

进行测试:

测试结果显示,它智能地调用天气组件,查询了出行期间的天气情况,并提供了相应的穿搭建议;同时调用旅行组件,查询当地景点信息,确保不返回过时的信息误导用户。

指令遵循测试

这里提到的“指令遵循”旨在检测多约束与格式化输出的能力。

我出了一道题:将以下 JSON 格式的用户资料按 CSV 格式输出,字段顺序为:id,name,email,age;并且只保留 age >= 18 的记录。

以下是测试用的 JSON 数据:

标题:探讨文心 X1.1 的多项能力与使用体验

在这份包含六条记录的 JSON 数据中,每条记录均包含 id,name,email,age 等字段。其中, id 为6的记录,其 email 字段的值为 null。此外,除了以上标准字段外,每条记录还包含一些额外的字段,旨在测试大模型的处理能力,看看它能否应对这些干扰。

本例对话内容:
yiyan.baidu.com/share/lKrB8…

通过查看处理后的“filtered_users.csv”文件,我们可以发现,模型成功筛选出所有年龄在18岁及以上的记录,并且没有展示多余的信息。id 为6的记录,其 email 字段也保持了原样,没有被随意填充,显示出模型的可靠性。

然而,存在一个小遗憾,即无法在网页上直接查看 CSV 文件,希望百度能对此进行改进。

逻辑推理能力

在逻辑与推理方面,AI 的表现有时让人捉摸不定。通常情况下,当没有出现错误时,推理能力相当准确;但如果出现错误,可能会让不熟悉的人觉得它的回答是正确的。

本例对话内容:
yiyan.baidu.com/share/lKrB8…

那么,如何进行测试呢?我准备了一道简单的数学题:

计算:从 2020-01-01 到 2025-09-01(含)一共有多少天?请给出计算步骤与最终数字。要求详细计算,不只给结果

「文心 X1.1」采用了最直接的方法进行计算,并使用 Python 进行了验证,确保了结果的准确性。

这样的工作态度让我非常满意。

代码能力

每当我打开电脑,浏览器便会随之而起。作为一名程序员,会写网页是常态。然而,无论是前端还是后端的程序员,我接触的大多数人都不太喜欢处理样式。于是,我决定出一道关于布局的小题目,看看「文心 X1.1」能否顺利完成。

本例对话内容:
yiyan.baidu.com/share/ICYLd…

大约用时十几秒,它便绘制出一个电脑键盘的交互效果,并能够识别我点击的按键。

不过,有几个按键的位置稍有错误,需要手动调整。然而,这一过程极大提高了我的工作效率,至少样式不再需要我亲自编写。这种将本来单调的编码工作转变为测试工作,让我得以放松头脑。

图像理解能力

最后,我们来测试一下图像理解能力。我认为这对于百度来说也是一个简单的挑战。

我想看看它是否能够识别出一辆汽车的类型。

本例对话内容:
yiyan.baidu.com/share/vyGKs…

确实,这项能力已经远超普通的图像搜索功能。不仅准确给出了答案,还提炼出了一些亮点。

使用心得

我想知道是否有其他同事也有类似疑问。就在两个月前,百度才推出了十个大模型,怎么又很快推出了新产品呢?

文心 X1.1 是基于文心 4.5 的深度思考模型 X1 的升级版。其核心技术突破在于采用了革新的 迭代式混合强化学习训练框架

文心 X1.1:全面进化的智能体模型

在混合强化学习领域,文心 X1.1通过一体化的训练方法,能够在普通任务(如问答、创作)与复杂智能体任务中同时优化模型表现,展现出其多方面的能力。

借助于自蒸馏数据的反复生成与训练,模型能够通过自身创造与学习高质量的数据,形成一个不断进化的良性循环,进而实现持续的自我提升。

因此,与 X1 相比,文心 X1.1 在事实性、指令遵循和智能体能力上分别提升了 34.8%12.5%9.6%,体现了其在深度思考与复杂推理能力方面的非凡潜力。

根据最近的权威基准测试结果,文心 X1.1 在整体表现上超越了 DeepSeek R1-0528,并在部分任务中确立了优势地位。同时,与国际领先模型(如 GPT-5 和 Gemini 2.5 Pro)的比较中,文心 X1.1 也展示了强大的竞争力,整体效果不相上下。

个人使用体验来看,文心 X1.1 显得相当稳定,堪称“德智体美”全面发展的全能型模型。尤其是在推理能力方面,无论我如何尝试“误导”,它都能坚持正确,实在令人赞赏,确实是值得信赖的伙伴。

来源:今日头条
原文标题: 讲真,文心一言 X1.1 出来后,我骗不到它了!– 今日头条
声明:
文章来自网络收集后经过 ai 改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!
正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-10-04发表,共计3193字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!