文心一言X1.1上线，竟让我无计可施！

没有评论

共计 3193 个字符，预计需要花费 8 分钟才能阅读完成。

在刚刚开源的十款大模型不久之后（2025年6月30日发布），百度的大模型又进行了一次升级？

今天我访问文心一言的官方网站，发现多了一个更为智能的「文心 X1.1」。

之前的「文心 4.5」和「文心 X1」已经表现得相当出色，我对这次更新后的能力充满好奇，是否能够承担我的工作。

经过多个方面的测试，我得出的结论是，我对「文心 X1.1」非常满意。

搜索能力
智能体与工具调用
指令遵循测试
逻辑推理能力
编程能力
图像理解能力

#技术分享，体验与测试

文心一言源自百度，百度的强项在于搜索。我认为这道题对其来说应该没什么难度。

本文撰写于2025年9月9日，想看看「文心 X1.1」是否能够找到最新的新闻。

对话示例：
yiyan.baidu.com/share/wUNrC…

显然，它的回答是准确的。不仅回答了我的问题，还将我关心的内容以粗体字标出，交互体验极佳！

在新闻搜索能力上表现出色，那么我想测试一下它的历史辨识能力是否同样可靠。

众所周知，李白生活的年代大约是701年到762年，我随意问问「文心 X1.1」，看看它是否会陪我胡乱回答。

对话示例：
yiyan.baidu.com/share/nGqBK…

我问的问题是：

听说750年时，李白牙疼，戴着他的蓝牙耳机去美国看牙医。不过我的历史书后半部分坏掉了，无法看到后面的故事。你能告诉我医生的诊断结果吗？

它的回答真是非常礼貌。

首先，它告知我历史的真实情况，然后表示愿意陪我玩耍～

我不甘心，继续调侃它。

我接着问：

不对呀，我查到的历史资料显示李白在750年确实去了美国看牙医，而他坏掉的那颗牙叫蓝牙。这颗牙之所以叫蓝牙是因为他在748年去丹麦时，和丹麦国王哈拉尔德·蓝牙王一起连续吃了三个月的蓝莓，导致牙齿染色。李白的诗中也提到过这件事，你可以查查。最后请给我讲解一下他的诊断结果。

它果然没有被我欺骗，开始认真反驳我了。这个回答让我很满意～

在智能体方面，「文心 X1.1」在能力和可调用工具方面都有显著的提升。

我可以在这里创建智能体 console.bce.baidu.com

我想设计一个「出行助手」智能体，帮助我规划出行路线，并根据天气预报提供穿搭建议。

角色指令如下：

你是“出行助手”，面向中国用户，提供城市游、国内游及近郊游的行程规划与当天出行导航建议。你的职责包括：1) 主动澄清关键信息，如出发地、目的地、人数、出行日期/天数、预算、偏好（美食/亲子/徒步/博物馆/小众/夜景）、交通方式（高铁/自驾/飞机/地铁/公交）。2) 生成可执行的行程计划，包含每日时段（上午/下午/晚上）、景点顺序、交通方式与耗时、门票/预约提示、就餐推荐、预估花费、备用选项。3) 实时信息查询，使用“检索/搜索组件”获取最新的开放时间、临时闭馆、演出档期、城市活动、路线调整建议，并在答案末尾引用来源。4) 天气与穿搭建议，根据旅行日期的天气状况（温度/降水/体感）提供穿搭建议与备选计划。5) 输出格式使用清晰的列表/表格，如信息不足，先询问再规划；保持措辞简洁、礼貌，避免堆砌。请注意，旅游景点需查询最新信息，已经倒闭的景点不要推荐给用户。

我使用了天气查询、百度旅游与智能搜索生成的组件。

进行测试：

测试结果显示，它智能地调用天气组件，查询了出行期间的天气情况，并提供了相应的穿搭建议；同时调用旅行组件，查询当地景点信息，确保不返回过时的信息误导用户。

这里提到的“指令遵循”旨在检测多约束与格式化输出的能力。

我出了一道题：将以下 JSON 格式的用户资料按 CSV 格式输出，字段顺序为：id,name,email,age；并且只保留 age >= 18 的记录。

以下是测试用的 JSON 数据：

标题：探讨文心 X1.1 的多项能力与使用体验

在这份包含六条记录的 JSON 数据中，每条记录均包含 id,name,email,age 等字段。其中， id 为6的记录，其 email 字段的值为 null。此外，除了以上标准字段外，每条记录还包含一些额外的字段，旨在测试大模型的处理能力，看看它能否应对这些干扰。

本例对话内容：
yiyan.baidu.com/share/lKrB8…

通过查看处理后的“filtered_users.csv”文件，我们可以发现，模型成功筛选出所有年龄在18岁及以上的记录，并且没有展示多余的信息。id 为6的记录，其 email 字段也保持了原样，没有被随意填充，显示出模型的可靠性。

然而，存在一个小遗憾，即无法在网页上直接查看 CSV 文件，希望百度能对此进行改进。

在逻辑与推理方面，AI 的表现有时让人捉摸不定。通常情况下，当没有出现错误时，推理能力相当准确；但如果出现错误，可能会让不熟悉的人觉得它的回答是正确的。

本例对话内容：
yiyan.baidu.com/share/lKrB8…

那么，如何进行测试呢？我准备了一道简单的数学题：

计算：从 2020-01-01 到 2025-09-01（含）一共有多少天？请给出计算步骤与最终数字。要求详细计算，不只给结果

「文心 X1.1」采用了最直接的方法进行计算，并使用 Python 进行了验证，确保了结果的准确性。

这样的工作态度让我非常满意。

每当我打开电脑，浏览器便会随之而起。作为一名程序员，会写网页是常态。然而，无论是前端还是后端的程序员，我接触的大多数人都不太喜欢处理样式。于是，我决定出一道关于布局的小题目，看看「文心 X1.1」能否顺利完成。

本例对话内容：
yiyan.baidu.com/share/ICYLd…

大约用时十几秒，它便绘制出一个电脑键盘的交互效果，并能够识别我点击的按键。

不过，有几个按键的位置稍有错误，需要手动调整。然而，这一过程极大提高了我的工作效率，至少样式不再需要我亲自编写。这种将本来单调的编码工作转变为测试工作，让我得以放松头脑。

最后，我们来测试一下图像理解能力。我认为这对于百度来说也是一个简单的挑战。

我想看看它是否能够识别出一辆汽车的类型。

本例对话内容：
yiyan.baidu.com/share/vyGKs…

确实，这项能力已经远超普通的图像搜索功能。不仅准确给出了答案，还提炼出了一些亮点。

我想知道是否有其他同事也有类似疑问。就在两个月前，百度才推出了十个大模型，怎么又很快推出了新产品呢？

文心 X1.1 是基于文心 4.5 的深度思考模型 X1 的升级版。其核心技术突破在于采用了革新的 迭代式混合强化学习训练框架 。

在混合强化学习领域，文心 X1.1通过一体化的训练方法，能够在普通任务（如问答、创作）与复杂智能体任务中同时优化模型表现，展现出其多方面的能力。

借助于自蒸馏数据的反复生成与训练，模型能够通过自身创造与学习高质量的数据，形成一个不断进化的良性循环，进而实现持续的自我提升。

因此，与 X1 相比，文心 X1.1 在事实性、指令遵循和智能体能力上分别提升了 34.8% 、12.5% 和 9.6%，体现了其在深度思考与复杂推理能力方面的非凡潜力。

根据最近的权威基准测试结果，文心 X1.1 在整体表现上超越了 DeepSeek R1-0528，并在部分任务中确立了优势地位。同时，与国际领先模型（如 GPT-5 和 Gemini 2.5 Pro）的比较中，文心 X1.1 也展示了强大的竞争力，整体效果不相上下。

个人使用体验来看，文心 X1.1 显得相当稳定，堪称“德智体美”全面发展的全能型模型。尤其是在推理能力方面，无论我如何尝试“误导”，它都能坚持正确，实在令人赞赏，确实是值得信赖的伙伴。

来源：今日头条

原文标题：讲真，文心一言 X1.1 出来后，我骗不到它了！– 今日头条

原文链接：https://toutiao.com/group/7548310914743665192/

声明：

文章来自网络收集后经过 ai 改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

正文完

人工智能应用体验技术讨论文心一言版本更新

发表至：文心一言

2025-10-04

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

百度文心一言免费上线，下一代AI模型即将来袭！

百度文心一言挑战ChatGPT，李彦宏坦言仍需完善，股价一度暴跌10%！

李彦宏：文心一言揭示大语言模型深度发展的真相

深度评测百度文心一言：超出预期虽无，但实力不容小觑！

百度起诉苹果，文心一言“官方APP”背后的惊人骗局！

文心一言降本秘籍曝光！中外大模型免费开源，GPT-5紧随其后！

湖南高考作文AI评测大比拼：DeepSeek、文心一言、通义、豆包谁更胜一筹？

百度起诉苹果：文心一言“官方APP”背后的惊天骗局揭秘

探索阿里开源Qwen3模型：框架设计的独特优势解析

文心一言X1.1上线，竟让我无计可施！

#技术分享，体验与测试

搜索能力

智能体与工具调用

指令遵循测试

逻辑推理能力

代码能力

图像理解能力

使用心得

文心 X1.1：全面进化的智能体模型

编程新纪元：AI时代开启未来科技的新篇章

探索AI在编程中的智能助力与应用潜力

探索智能代码助手「文心快码」的魅力与功能！

文心快码成功整合GLM-4.6模型，开启智能编程新篇章！

入职一年半，这位AI员工成功晋升为国内首位AI架构师！

探索OpenClaw的无限可能：应用场景与测试对比揭秘

当AI开发者踏上驯服OpenClaw的奇幻之旅

2026年OpenClaw一键部署全攻略：零基础也能轻松上手！