颠覆常规：探索AI智能体的创新应用与思维方式

没有评论

共计 8009 个字符，预计需要花费 21 分钟才能阅读完成。

从 Coze 到 Dify，AI Agent 的应用正在迅速发展，从对话型转变为任务导向型。然而，真正的突破不在于功能的提升，而在于认知的进化。本文将深入分析智能体的应用路径，并结合非常规思维，助你构建更为系统的 Agent 策略。

编者近期专注于两个方面：

对一款 AI 产品进行全面的评测，特别是对 Notebooklm 进行了深入调研。
推动一款 AI 产品从零开始到上线的评测过程。

由于这两项工作均与智能体相关，因此我决定撰写一篇关于 Agent 的文章，主要内容如下：

如何选择工作流与智能体
A2A 协议下的四种畅想连接模式
Agent 的产品设计方案
智能体的反常识思考
Agent 的基本原理与构成

在所有 AI 产品中，实现某项特定能力总会遇到一个关键问题：是选择智能体还是工作流？

智能体具备一项重要的能力，它拥有独立的“思维”，能够分析和理解输入的上下文，而工作流则不具备这一点，像是“失去了思考能力”。

在探讨如何做出选择之前，首先需要厘清它们的定义：

工作流：一种预设的功能路径，旨在协调 LLMs 与工具之间的系统。
智能体：通过 LLMs 自主决策并动态执行流程及工具使用，同时对任务完成的路径掌握控制权的系统。

工作流是静态的，遵循预设的 A —>B —>C 流程，仅仅是一个执行者。而智能体则是动态的，具备自主推理与决策能力。

在决定是使用智能体还是工作流时，需自问两个问题：

Q1：是否能通过优化提示词调用 LLM 来解决问题？
Q2：问题是否明确？是否能清晰地将其拆解为多个子任务？

在大多数情况下，通过检索和上下文示例优化单个 LLM 调用就能够解决许多问题。当任务明确且复杂程度不高时，使用工作流这种固定流程将提供可预测的解决方案。

然而，当需要大量灵活性以选择模型和其他工具时，智能体显然是更为理想的选择。

值得注意的是， 系统的复杂性与运行时间成本成正比 ，作为产品开发者，需要权衡这种成本是否在可接受范围内。

像 Coze 和 Dify 这样的平台虽然能帮助我们快速搭建智能体框架，但这种搭建过程会额外增加模型的抽象层，导致底层响应时间变慢，使得系统更难调试。如果条件允许，最好在代码层面直接进行调用。

另一个场景是，当问题极其复杂时，需要多个智能体协同合作才能实现最终目标。此时必须设定一个总代理智能体，以协调调用其他智能体共同分析问题并采取行动。

总之，选择应围绕具体问题场景，而非盲目追求系统框架的复杂性 。

若我们的 AI 产品需要上线，就必须尽量减少抽象层，使用基础组件来构建智能体。

复杂性并非目的，解决问题才是。

最近我体验了一些多智能体协作的产品，其中百度推出的 GenFlow2.0 给我留下了深刻印象。从我输入的第一条指令开始，我就不断感叹“太惊艳了”。百度凭借长期积累的数据推出了这一重磅产品。据官方数据显示，GenFlow2.0 内部嵌入了 100 多位智能体专家。

作为用户，我从全流程体验了产品的任务规划、执行及工具调用，整个过程极为流畅，最终生成的内容质量也相当高，且在内容生成过程中，可以随时进行暂停。

在上面的图中，我们可以看到蓝色箭头指向“PPT 大师”这一智能体。GenFlow2.0 除了调用 MCP 或 API 外，还利用了内部设定的多个智能体来执行任务。这展示了通过调用智能体合作完成复杂任务的一个实际案例。

谷歌在今年 4 月提出了 A2A 协议（Agent to Agent）。借助这个协议，智能体调用的工具不仅限于 MCP 和 API，还可以是其他智能体。

我相信 A2A 协议很可能会得到广泛应用。随着智能体逐渐在每个用户终端设备上落地，AtoA 将不再只是平台智能体统一调用自研智能体的独角戏 。

基于 A2A 协议，我们可以进行进一步推演。两个 Agent 背后的角色可能相同也可能不同。Agent 可以是用户的个人智能体，也可以是企业的公有智能体。因此，可能会出现两两组合，形成四种甚至更多的 Agent 信息传递形式。

用户 A×企业 A / 用户 A 企业 A×用户 A / 企业 A

不同的排列组合将产生不同的交互方式。触发调用 Agent 的角色不同，获取的内容也会有所不同，形态设计也随之多样：

用户为主体调用 Agent，根本上是为了获取物理世界的信息。在这一过程中，Agent 必须遵循人类社会的规范和道德标准。
企业为主体触发 Agent，主要是为了获取世界模型的信息，此时 Agent 的任务是精确地描绘世界模型，注重数据交互的高效性和准确性。

接下来，我将从用户角色 Agent 触发调用的角度，设计一款 Agent。

以手机作为载体来设计 Agent。在我看来，现有的 C 端硬件设备中，手机和电脑是最为理想的选择，因为软硬件智能体的结合在这些设备上能实现最优的用户体验。其原因如下：

信息接收效果佳：文字输入方便，语音输入因为麦克风靠近用户，具备良好的收音效果，使得 ASR 识别率更高。
Agent 调度范围广泛：手机和电脑是目前应用程序最为集中的硬件，便于智能体进行统一调度。
用户使用场景明确：涵盖娱乐、工作、学习、旅行、购物等多种场景。

Agent 可以分为两类：一类是具备专业技能的垂直型 Agent，另一类是能调度多种垂直技能的总管型 Agent。以频繁出差的需求为切入点，我将设计一款酒旅住宿智能体。

颠覆常规：探索 AI 智能体的创新应用与思维方式

在设计 Agent 之前，必须明确三条设计原则：稳定性、可靠性、安全性。

这些原则的制定旨在指导后续的产品决策，以确保整体方向不偏离。每一条原则背后都对应着一系列具体的行动计划。

原则一：稳定——确保功能的稳定性与可靠性

（1）能力边界：明确智能体所能解决的问题——例如，该智能体能够帮助用户从多个 OTA 平台中选择合适的酒店进行预订。

（2）允许与禁止的内容：仅能调用用户授权的应用、可用的 MCP 和 API；严禁未经许可调用软件，删除用户数据或发起收银。

原则二：可靠——确保功能逻辑的一致性与可解释性

（1）Agent 思维链：必要时，应向用户展示 Agent 的推理过程。

例如：好的，正在为您查找 798 附近的酒店，根据您的地理位置推断，您可能在寻找位于北京酒仙桥附近的酒店……

（2）任务执行可解释：基于外部信息获取答案时，应标明信息来源，并允许用户自行核实。

例如：根据 xx 天气网，未来一周有强降雨，请入住酒店时记得携带雨伞～

原则三：安全——确保个人与公共安全

（1）感知攻击：设计输入净化和输出过滤机制，识别敏感词和场景。

（2）幻觉内容：智能体可能出现“幻觉”，因此需要设计校验机制，确保工具调用的合法性与合规性。

（3）内容安全：制定内容审查工具，通过微调将社会基本价值观、道德标准和企业文化嵌入智能体，确保在面对灰色问题时的行为约束。

（4）隐私保护：Agent 仅应请求和存储完成任务所需的最小用户数据，且数据需保存在本地，未经允许不得上传到云端。如需上传，则必须告知用户数据的使用方式。

前期需求评估是产品经理的基础技能，本段将跳过讨论这一环节。

（1）产品概述：在酒店预订的场景中，用户常常需要对比大量酒店的基础设施、价格和地理位置等信息，整个决策过程耗时较长。为了解决这一问题，我们设计了一款酒旅出行智能体，旨在帮助用户以最少的时间找到符合需求的酒店。

（2）目标：通过与用户和 AI 的多轮对话，力争在 5 分钟内找到满足用户预定需求的酒店。随着推荐酒店数据的增加，智能体将能更好地匹配用户心目中的理想酒店。

颠覆常规：探索 AI 智能体的创新应用与思维方式

1）核心能力

理解用户复杂模糊的预定需求，并引导用户表达相关的内容（如位置、价格、时间、取消政策等）。
在用户同意后，能够调用某程、某团、某猪等平台的 APP 或小程序。
根据用户的偏好和历史选择，匹配并筛选酒店。

2）辅助能力

支持用户在对话中随时打断 Agent 的推理，修改提示词。
提供酒店入住时所需的清单和注意事项。
根据本次入住需求，提出酒店住宿的建议。

3）能力边界

不提供酒店接送等非入住相关的查询功能。
所有表达内容都需附带 AI 生成的声明。

4）行为协议

当用户表达模糊时，罗列需要补充的信息以便搜索目标酒店。
当用户希望对比酒店时，结合大多数用户关注的维度和个人偏好，给出更具优势的产品建议。

5）工具集

API：选择 ChatGPT5、点评 API、小红书数据调用 API。
MCP：如某德地图等。
向量数据库：储存用户在手机上的操作日志数据；统一认证服务。

（1）角色设定：高效、贴心且富有热情的酒店预订助手。

（2）性格特征：可靠、体贴、逻辑严谨，偶尔带有幽默感。充当酒店预订的专家。

（3）语言风格：简洁、礼貌、口语化以及专业化。能够在用户表达不清时，引导其明确 Agent 需要检索的内容。

例如 1：您好，请问有什么可以为您服务的呢？您此次入住有几位成人和儿童？是否需要包含早餐的房型？

例如 2：不喜欢这个酒店吗？那我们马上换一个，我又找到几家酒店，您更倾向于哪些方面呢？

（4）中高自主水平：能够识别用户入住意图，从众多酒店中选择符合用户要求的选项，并解释选择原因。

（5）用户确认：主动确认用户对酒店入住的要求，如预算、房型、是否需要早餐、距离地铁站的远近等。

（6）失败与恢复策略：处理指令模糊、信息缺失及执行失败的情况。

指令模糊：“这个问题问得不错！‘性价比高’可以有很多理解。您是指靠近 xxx 园区，单晚价格在 200～300 元，并提供早餐、评价 90% 优秀的大床房吗？”
信息缺失：“我没有找到符合您要求的五星级酒店，不过我发现了一家小红书上口碑不错的四星级酒店，您想看看吗？”
执行失败：“抱歉～网络似乎出了点问题，请让我再试一次！”

（1）数据采集与标注策略：Agent 训练时与技术算法共同制定训练集与测评集，并在使用过程中增加三类信号。

强显示信号：最终保存的酒店，收藏的酒店。
弱显示信号：选择替换的酒店方案。
隐式信号：预定链接的使用次数，酒店替换的选择次数，修改提示词的频率。

注：测评集合绝不可参与训练过程，训练集需保证场景丰富全面且真实。

（2）量化指标：用于反映 AI 核心能力的指标，例如：任务成功率、意图识别准确度、用户信任度。对于一些无法量化的场景，可以采取二分法。

（3）基准测试建立：设计标准化的测试集与流程，以评估模型迭代的效果，例如：预设高质量的 SFT 数据（未进行大量对话前下单的酒店数据），用于模型训练。

（1）风险护栏：明确不可执行的行为范围，并处理相关约束内容。

（2）公平性：避免偏向大型连锁品牌，严格依据用户历史预定偏好和大数据反馈。

（3）安全隐私：严禁生成任何基于种族、国籍、性别或宗教的歧视性言论，尽量减少数据采集。

（4）可解释性：在适当时机向用户展示 Agent 的决策推理链路。

（1）评测要求：预设 100 个评测场景，针对核心问题、边界问题和无关问题进行拆解，问题的答案需给出预期的理想酒店推荐或回复。

（2）迭代与指标评估：

酒店收藏的对话数 / 开启对话沟通次数（可限制数量）*100%
成功下单的酒店数 / 有效推荐酒店对话数 *100%
一轮对话中成功收藏或下单的次数 / 总酒店推荐数 *100%
查询指令的执行成功率、结果准确性（通过与人工分析结果对比）、问题的平均回复时间、酒店推荐的满意度（显性按钮 + 隐性下单概率）。

（1）分阶段上线：制定从内部测试验收、小范围推广到全面上线的计划。

（2）性能监控：部署监控系统，实时跟踪关键评估指标和数据漂移情况。

（3）反馈闭环的建立：收集预设的显性和隐性用户反馈，以优化 Agent。

（4）上线版本评测：上线后，使用评测集进行再次评测，确保 Agent 在核心场景中的稳定性、可靠性和安全性。

（5）迭代方向：V1.0 版本仅允许查询单个平台的酒店信息并下单。V2.0 版本则能够同时查询多个平台，进行比价，并结合用户的历史订单记录推荐酒店。并记录 Agent 的成功指标（任务成功率、独立问题解决率、用户信任度、工具调用准确率）。

在整个流程中，有一个核心要点需要强调：一旦 Agent MVP 版本的设计完成，必须立即进行评测！评测应贯穿整个过程，许多 AI 产品经理可能未意识到，AI 技术生成内容存在不稳定性。 评测驱动应贯穿整个 AI 产品的生命周期。

经过长时间的产品评测与大量资料的研究，编者整理出了一些关于 Agent 的逆向思维和未来趋势的洞见。每一点都值得产品经理深入探讨其内在逻辑，并作为产品设计的实践原则。

逆向思维 1：通用智能如同一个圆，永远在接近。行业智能更具实用性

Agent 可被划分为两大类：通用型和行业专属型。Agent 的智能水平源自于模型的能力，而行业专属 Agent 则不需过度依赖复杂的模型，且在实施上成本更低，短期内更易达成。例如，可以构建一个针对特定行业的“GenFlow”。

虽然我没有进行严格的统计，但据我了解，GenFlow2.0 是国内首个实现 100 多个 Agent 调用的产品。未来可能会出现 1000 个甚至 10000 个的实例。“ 通用”Agent 或将通过 A2A 协议连接多个智能体的产生 。

伪通用智能将会由一个总代理 Agent 负责调度这些具备不同专业能力的 Agent。对这个总代理 Agent 的要求是：具备极强的适应性与调度能力。

逆向思维 2（产品层面）：不必为所有任务都创建或使用智能体

智能体被过度神化。很多人可能认为只要加上“智能”二字，就能够掩盖在某些场景中它的不足之处。

更何况在某些特定情况下，即便 Agent 足够智能，它也无法完全替代传统的操作方式。否则，为什么还有许多人选择不佩戴智能手表，依旧使用传统的指针手表呢？

我们应回归到最初的场景，关注用户、需求以及商业价值，从而定义产品方案。

逆向思维 3（人文角度）：人类是责任的承担者

尽管 Agent 能够替代部分人的工作，但这并不意味着它能完全取代人类。Agent 的定位应是：帮助人类提高效率，重点在于支持与辅助。如果你日常的工作是辅助性的，而缺乏“智能”，那么你必然会被取代。这可能是其他人，也可能是 Agent， 因为成本的原因 。

我们需要重新审视自己与 Agent 之间的关系。Agent 应被视为提升我们效率的生态能力。

在社会中，有一点非常重要， 因为你是人类，所以我会使用你 。在社会中，还有一个至关重要的任务——承担责任。没有人能够让 Agent 承担责任，人类社会需要有人来使用 Agent，或许你并不需要具备特别的能力，你仅需为 Agent 所生成的内容负责。

趋势分析 1——Agent 将削弱人们提问的能力

我非常欣赏李继刚老师的观点。在人工智能时代，人们提出好问题的能力可能会逐渐减弱，甚至不知如何提出有效的问题。

为了让 AI 执行指令，必须提供清晰的信息。然而，产品经理们知道，大部分人并不善于提供高质量的提示。如果希望产品能进入 C 端市场，就有必要降低使用门槛。要充分利用 AI 的能力，必须提供足够的信息。当信息越来越稀少时，提问的能力也会逐渐衰退。因此，这种变化值得我们警惕。

趋势分析 2——优秀的 Agent 应学会简化与遗忘

Agent 的一个重要功能是记忆，当前它在记忆方面表现良好，但未来可能会因记忆而遭遇挑战。记住过多的信息未必是好事，未来 Agent 的发展方向应是学会选择性遗忘。 选择性遗忘远比记忆要复杂得多 。当 Agent 能够实现遗忘功能时，通用 Agent 也将更进一步。

由于这部分内容属于基础知识，因此放在最后进行科普。Agent 的基本原理与组成是我们方案设计的基础。

Agent 也被称为智能体。我并不知道这个名称最初是谁起的，但我认为这个名字过于高大上，不如称其为“高级打工人”。

举个实际案例：

你在一家水果店工作，老板告诉你：本月希望店铺营收翻一番，希望你能实现这个目标。接到任务后，你开始进行以下几个步骤。

步骤 1：接收并理解老板的意图：营收增加一倍。
步骤 2：为了达成目标，你进行了大量调研，拆解任务：估算水果损耗，计算每日客流量，分析当季热销产品等。
步骤 3：最终确认解决方案：将西瓜榨成汁以提高利润，而香蕉损耗大且难以卖出应减少进货。
步骤 4：立即付诸实践，最终实现了店铺营收翻倍，甚至超出老板的期望。

案例中的高级打工人，正是一个优秀的 Agent。它能够清晰理解老板的意图，并为实现指令拆解任务、分析并输出解决方案，最后执行方案，达到预期效果。这就是 Agent 的工作原理。

Agent 由三个核心要素构成：大脑、工具和记忆。无论系统多么复杂，根本上都离不开这三者。

大脑：为 Agent 提供智能的模型，如 Deepseek，它们负责信息获取、推理与规划等功能。
记忆：让 Agent 记住先前的对话（上下文、外部文件、数据库），以及执行任务过程中的操作，利用背景与上下文统一目标，从而做出更好的决策。
工具：各种外部工具，例如：API、MCP 等。

智能体通过自主编排这些元素，确保生成内容的高质量。这也引出了 Agent 的四大能力。

1）信息感知能力 ：输入层包括文本、图片和语音

最初，Agent 依赖于大语言模型，输入仅为文本。然而，现实中还有图片、语音等其他模态存在。因此，通过 OCR（光学字符识别）和 ASR（自动语音识别），将这些模态转化为文本，进而输入到大模型中；但这种方式效率较低。随后，工程师们增强了模型的端到端感知能力，使其支持图片和语音输入，从而更有效地分析信息，以用于后续的数据处理。

至此，大模型实现了多模态的感知能力，Agent 对外界信息的接收和感知也变得更加多样化和准确。

2）规划能力 ：分析与思考的能力

为了赋予 Agent 这种能力，离不开一项重要的研究：《Tree of Thoughts》。该论文提出了“思维树”的概念。

简单来说，借助思维树，模型在解决问题之前能够主动拆解问题，并整理出多种解决方案，思考每个方案的步骤，最后选出最优解。

然而，现实世界问题复杂多变，现有的模型水平无法单独给出最佳解决方案。因此，工程师们将多个模型结合使用，像社会分工一样，各司其职，共同解决问题。例如，模型 A 负责任务 1，模型 B 负责任务 2。通过这种协作方式，任务被拆解并最终提供解决方案。

这种架构被称为智能体架构，coze 和 dify 就是一种生成智能体架构的平台。

3）行动能力

为了让 Agent 知道如何行动，工程师采用监督微调（SFT）的方法：通过人工标注高质量数据进行预训练，以便更好地完成特定任务。通过这种方式，模型学会了如何调用工具。

最常见的工具调用方式是通过 API，但在某些情况下没有 API 可用，因此 Claude 的母公司 Anthropic 发明了一个协议——MCP（模型上下文协议），将 API 的调用标准化，使许多没有 API 的功能也能被调用使用。

4）记忆能力

Agent 的记忆能力分为短期记忆与长期记忆。

短期记忆：Agent 的上下文记忆功能有字符限制。每次请求 Agent 时，它会自主查询之前交流的信息。由于字段限制，Agent 仅能记住有限的信息，超出限制的部分会自动截断，只能依据限制内的信息作出反应。
长期记忆：在许多场景中，需要模型具备长期记忆。因此，需要将历史数据存储在外部的向量数据库中。在用户发起请求时，依赖 RAG（检索增强生成）技术，从向量数据库中搜索相关内容匹配。这项技术还可以有效减少模型的幻觉现象。

AI 领域的相关内容繁杂无比，前几天的前沿技术，今天可能就会被超越。在如此庞大的信息面前，保持冷静思考至关重要。

作为人类，我们不应选择成为工作流的一部分。

创作不易，欢迎大家点赞、转发和评论。

[1]《AI 智能体需求规格设计指南》，作者：比克

[2]《构建高效的智能体》，作者：Erik Schluntz 与 Barry Zhang

[3]《思维树》，作者：Shunyu Yao 等

本文由 @单车胡思原创发布于人人都是产品经理。未经作者同意，不得转载

封面图片来源于 Unsplash，依据 CC0 协议使用

正文完