共计 8009 个字符,预计需要花费 21 分钟才能阅读完成。
从 Coze 到 Dify,AI Agent 的应用正在迅速发展,从对话型转变为任务导向型。然而,真正的突破不在于功能的提升,而在于认知的进化。本文将深入分析智能体的应用路径,并结合非常规思维,助你构建更为系统的 Agent 策略。
编者近期专注于两个方面:
- 对一款 AI 产品进行全面的评测,特别是对 Notebooklm 进行了深入调研。
- 推动一款 AI 产品从零开始到上线的评测过程。
由于这两项工作均与智能体相关,因此我决定撰写一篇关于 Agent 的文章,主要内容如下:
- 如何选择工作流与智能体
- A2A 协议下的四种畅想连接模式
- Agent 的产品设计方案
- 智能体的反常识思考
- Agent 的基本原理与构成
01 选择工作流还是智能体?
在所有 AI 产品中,实现某项特定能力总会遇到一个关键问题:是选择智能体还是工作流?
智能体具备一项重要的能力,它拥有独立的“思维”,能够分析和理解输入的上下文,而工作流则不具备这一点,像是“失去了思考能力”。
在探讨如何做出选择之前,首先需要厘清它们的定义:
- 工作流:一种预设的功能路径,旨在协调 LLMs 与工具之间的系统。
- 智能体:通过 LLMs 自主决策并动态执行流程及工具使用,同时对任务完成的路径掌握控制权的系统。
工作流是静态的,遵循预设的 A —>B —>C 流程,仅仅是一个执行者。而智能体则是动态的,具备自主推理与决策能力。
在决定是使用智能体还是工作流时,需自问两个问题:
- Q1:是否能通过优化提示词调用 LLM 来解决问题?
- Q2:问题是否明确?是否能清晰地将其拆解为多个子任务?
在大多数情况下,通过检索和上下文示例优化单个 LLM 调用就能够解决许多问题。当任务明确且复杂程度不高时,使用工作流这种固定流程将提供可预测的解决方案。
然而,当需要大量灵活性以选择模型和其他工具时,智能体显然是更为理想的选择。
值得注意的是, 系统的复杂性与运行时间成本成正比 ,作为产品开发者,需要权衡这种成本是否在可接受范围内。
像 Coze 和 Dify 这样的平台虽然能帮助我们快速搭建智能体框架,但这种搭建过程会额外增加模型的抽象层,导致底层响应时间变慢,使得系统更难调试。如果条件允许,最好在代码层面直接进行调用。
另一个场景是,当问题极其复杂时,需要多个智能体协同合作才能实现最终目标。此时必须设定一个总代理智能体,以协调调用其他智能体共同分析问题并采取行动。
总之,选择应围绕具体问题场景,而非盲目追求系统框架的复杂性 。
若我们的 AI 产品需要上线,就必须尽量减少抽象层,使用基础组件来构建智能体。
复杂性并非目的,解决问题才是。
02 A2A 协议——未来 Agent 形态
最近我体验了一些多智能体协作的产品,其中百度推出的 GenFlow2.0 给我留下了深刻印象。从我输入的第一条指令开始,我就不断感叹“太惊艳了”。百度凭借长期积累的数据推出了这一重磅产品。据官方数据显示,GenFlow2.0 内部嵌入了 100 多位智能体专家。
作为用户,我从全流程体验了产品的任务规划、执行及工具调用,整个过程极为流畅,最终生成的内容质量也相当高,且在内容生成过程中,可以随时进行暂停。
在上面的图中,我们可以看到蓝色箭头指向“PPT 大师”这一智能体。GenFlow2.0 除了调用 MCP 或 API 外,还利用了内部设定的多个智能体来执行任务。这展示了通过调用智能体合作完成复杂任务的一个实际案例。
谷歌在今年 4 月提出了 A2A 协议(Agent to Agent)。借助这个协议,智能体调用的工具不仅限于 MCP 和 API,还可以是其他智能体。
我相信 A2A 协议很可能会得到广泛应用。随着智能体逐渐在每个用户终端设备上落地,AtoA 将不再只是平台智能体统一调用自研智能体的独角戏 。
基于 A2A 协议,我们可以进行进一步推演。两个 Agent 背后的角色可能相同也可能不同。Agent 可以是用户的个人智能体,也可以是企业的公有智能体。因此,可能会出现两两组合,形成四种甚至更多的 Agent 信息传递形式。
用户 A×企业 A / 用户 A 企业 A×用户 A / 企业 A
不同的排列组合将产生不同的交互方式。触发调用 Agent 的角色不同,获取的内容也会有所不同,形态设计也随之多样:
- 用户为主体调用 Agent,根本上是为了获取物理世界的信息。在这一过程中,Agent 必须遵循人类社会的规范和道德标准。
- 企业为主体触发 Agent,主要是为了获取世界模型的信息,此时 Agent 的任务是精确地描绘世界模型,注重数据交互的高效性和准确性。
接下来,我将从用户角色 Agent 触发调用的角度,设计一款 Agent。
03 Agent 设计原则
以手机作为载体来设计 Agent。在我看来,现有的 C 端硬件设备中,手机和电脑是最为理想的选择,因为软硬件智能体的结合在这些设备上能实现最优的用户体验。其原因如下:
- 信息接收效果佳:文字输入方便,语音输入因为麦克风靠近用户,具备良好的收音效果,使得 ASR 识别率更高。
- Agent 调度范围广泛:手机和电脑是目前应用程序最为集中的硬件,便于智能体进行统一调度。
- 用户使用场景明确:涵盖娱乐、工作、学习、旅行、购物等多种场景。
Agent 可以分为两类:一类是具备专业技能的垂直型 Agent,另一类是能调度多种垂直技能的总管型 Agent。以频繁出差的需求为切入点,我将设计一款酒旅住宿智能体。
在设计 Agent 之前,必须明确三条设计原则:稳定性、可靠性、安全性。
这些原则的制定旨在指导后续的产品决策,以确保整体方向不偏离。每一条原则背后都对应着一系列具体的行动计划。
原则一:稳定——确保功能的稳定性与可靠性
(1)能力边界:明确智能体所能解决的问题——例如,该智能体能够帮助用户从多个 OTA 平台中选择合适的酒店进行预订。
(2)允许与禁止的内容:仅能调用用户授权的应用、可用的 MCP 和 API;严禁未经许可调用软件,删除用户数据或发起收银。
原则二:可靠——确保功能逻辑的一致性与可解释性
(1)Agent 思维链:必要时,应向用户展示 Agent 的推理过程。
例如:好的,正在为您查找 798 附近的酒店,根据您的地理位置推断,您可能在寻找位于北京酒仙桥附近的酒店……
(2)任务执行可解释:基于外部信息获取答案时,应标明信息来源,并允许用户自行核实。
例如:根据 xx 天气网,未来一周有强降雨,请入住酒店时记得携带雨伞~
原则三:安全——确保个人与公共安全
(1)感知攻击:设计输入净化和输出过滤机制,识别敏感词和场景。
(2)幻觉内容:智能体可能出现“幻觉”,因此需要设计校验机制,确保工具调用的合法性与合规性。
(3)内容安全:制定内容审查工具,通过微调将社会基本价值观、道德标准和企业文化嵌入智能体,确保在面对灰色问题时的行为约束。
(4)隐私保护:Agent 仅应请求和存储完成任务所需的最小用户数据,且数据需保存在本地,未经允许不得上传到云端。如需上传,则必须告知用户数据的使用方式。
04 酒旅住宿 Agent 设计
前期需求评估是产品经理的基础技能,本段将跳过讨论这一环节。
1、产品定位与目标
(1)产品概述:在酒店预订的场景中,用户常常需要对比大量酒店的基础设施、价格和地理位置等信息,整个决策过程耗时较长。为了解决这一问题,我们设计了一款酒旅出行智能体,旨在帮助用户以最少的时间找到符合需求的酒店。
(2)目标:通过与用户和 AI 的多轮对话,力争在 5 分钟内找到满足用户预定需求的酒店。随着推荐酒店数据的增加,智能体将能更好地匹配用户心目中的理想酒店。
2、能力边界与工具调用
1)核心能力
- 理解用户复杂模糊的预定需求,并引导用户表达相关的内容(如位置、价格、时间、取消政策等)。
- 在用户同意后,能够调用某程、某团、某猪等平台的 APP 或小程序。
- 根据用户的偏好和历史选择,匹配并筛选酒店。
2)辅助能力
- 支持用户在对话中随时打断 Agent 的推理,修改提示词。
- 提供酒店入住时所需的清单和注意事项。
- 根据本次入住需求,提出酒店住宿的建议。
3)能力边界
- 不提供酒店接送等非入住相关的查询功能。
- 所有表达内容都需附带 AI 生成的声明。
4)行为协议
- 当用户表达模糊时,罗列需要补充的信息以便搜索目标酒店。
- 当用户希望对比酒店时,结合大多数用户关注的维度和个人偏好,给出更具优势的产品建议。
5)工具集
- API:选择 ChatGPT5、点评 API、小红书数据调用 API。
- MCP:如某德地图等。
- 向量数据库:储存用户在手机上的操作日志数据;统一认证服务。
3、Agent 形象定义与交互设计
(1)角色设定:高效、贴心且富有热情的酒店预订助手。
(2)性格特征:可靠、体贴、逻辑严谨,偶尔带有幽默感。充当酒店预订的专家。
(3)语言风格:简洁、礼貌、口语化以及专业化。能够在用户表达不清时,引导其明确 Agent 需要检索的内容。
例如 1:您好,请问有什么可以为您服务的呢?您此次入住有几位成人和儿童?是否需要包含早餐的房型?
例如 2:不喜欢这个酒店吗?那我们马上换一个,我又找到几家酒店,您更倾向于哪些方面呢?
(4)中高自主水平:能够识别用户入住意图,从众多酒店中选择符合用户要求的选项,并解释选择原因。
(5)用户确认:主动确认用户对酒店入住的要求,如预算、房型、是否需要早餐、距离地铁站的远近等。
(6)失败与恢复策略:处理指令模糊、信息缺失及执行失败的情况。
- 指令模糊:“这个问题问得不错!‘性价比高’可以有很多理解。您是指靠近 xxx 园区,单晚价格在 200~300 元,并提供早餐、评价 90% 优秀的大床房吗?”
- 信息缺失:“我没有找到符合您要求的五星级酒店,不过我发现了一家小红书上口碑不错的四星级酒店,您想看看吗?”
- 执行失败:“抱歉~网络似乎出了点问题,请让我再试一次!”
4、数据收集
(1)数据采集与标注策略:Agent 训练时与技术算法共同制定训练集与测评集,并在使用过程中增加三类信号。
- 强显示信号:最终保存的酒店,收藏的酒店。
- 弱显示信号:选择替换的酒店方案。
- 隐式信号:预定链接的使用次数,酒店替换的选择次数,修改提示词的频率。
注:测评集合绝不可参与训练过程,训练集需保证场景丰富全面且真实。
(2)量化指标:用于反映 AI 核心能力的指标,例如:任务成功率、意图识别准确度、用户信任度。对于一些无法量化的场景,可以采取二分法。
(3)基准测试建立:设计标准化的测试集与流程,以评估模型迭代的效果,例如:预设高质量的 SFT 数据(未进行大量对话前下单的酒店数据),用于模型训练。
5、Agent 护栏
(1)风险护栏:明确不可执行的行为范围,并处理相关约束内容。
(2)公平性:避免偏向大型连锁品牌,严格依据用户历史预定偏好和大数据反馈。
(3)安全隐私:严禁生成任何基于种族、国籍、性别或宗教的歧视性言论,尽量减少数据采集。
(4)可解释性:在适当时机向用户展示 Agent 的决策推理链路。
6、评测与度量标准
(1)评测要求:预设 100 个评测场景,针对核心问题、边界问题和无关问题进行拆解,问题的答案需给出预期的理想酒店推荐或回复。
(2)迭代与指标评估:
- 酒店收藏的对话数 / 开启对话沟通次数(可限制数量)*100%
- 成功下单的酒店数 / 有效推荐酒店对话数 *100%
- 一轮对话中成功收藏或下单的次数 / 总酒店推荐数 *100%
- 查询指令的执行成功率、结果准确性(通过与人工分析结果对比)、问题的平均回复时间、酒店推荐的满意度(显性按钮 + 隐性下单概率)。
7、迭代部署与持续进化
(1)分阶段上线:制定从内部测试验收、小范围推广到全面上线的计划。
(2)性能监控:部署监控系统,实时跟踪关键评估指标和数据漂移情况。
(3)反馈闭环的建立:收集预设的显性和隐性用户反馈,以优化 Agent。
(4)上线版本评测:上线后,使用评测集进行再次评测,确保 Agent 在核心场景中的稳定性、可靠性和安全性。
(5)迭代方向:V1.0 版本仅允许查询单个平台的酒店信息并下单。V2.0 版本则能够同时查询多个平台,进行比价,并结合用户的历史订单记录推荐酒店。并记录 Agent 的成功指标(任务成功率、独立问题解决率、用户信任度、工具调用准确率)。
在整个流程中,有一个核心要点需要强调:一旦 Agent MVP 版本的设计完成,必须立即进行评测!评测应贯穿整个过程,许多 AI 产品经理可能未意识到,AI 技术生成内容存在不稳定性。 评测驱动应贯穿整个 AI 产品的生命周期。
05 Agent 的逆向思维与趋势分析
经过长时间的产品评测与大量资料的研究,编者整理出了一些关于 Agent 的逆向思维和未来趋势的洞见。每一点都值得产品经理深入探讨其内在逻辑,并作为产品设计的实践原则。
逆向思维 1:通用智能如同一个圆,永远在接近。行业智能更具实用性
Agent 可被划分为两大类:通用型和行业专属型。Agent 的智能水平源自于模型的能力,而行业专属 Agent 则不需过度依赖复杂的模型,且在实施上成本更低,短期内更易达成。例如,可以构建一个针对特定行业的“GenFlow”。
虽然我没有进行严格的统计,但据我了解,GenFlow2.0 是国内首个实现 100 多个 Agent 调用的产品。未来可能会出现 1000 个甚至 10000 个的实例。“ 通用”Agent 或将通过 A2A 协议连接多个智能体的产生 。
伪通用智能将会由一个总代理 Agent 负责调度这些具备不同专业能力的 Agent。对这个总代理 Agent 的要求是:具备极强的适应性与调度能力。
逆向思维 2(产品层面):不必为所有任务都创建或使用智能体
智能体被过度神化。很多人可能认为只要加上“智能”二字,就能够掩盖在某些场景中它的不足之处。
更何况在某些特定情况下,即便 Agent 足够智能,它也无法完全替代传统的操作方式。否则,为什么还有许多人选择不佩戴智能手表,依旧使用传统的指针手表呢?
我们应回归到最初的场景,关注用户、需求以及商业价值,从而定义产品方案。
逆向思维 3(人文角度):人类是责任的承担者
尽管 Agent 能够替代部分人的工作,但这并不意味着它能完全取代人类。Agent 的定位应是:帮助人类提高效率,重点在于支持与辅助。如果你日常的工作是辅助性的,而缺乏“智能”,那么你必然会被取代。这可能是其他人,也可能是 Agent, 因为成本的原因 。
我们需要重新审视自己与 Agent 之间的关系。Agent 应被视为提升我们效率的生态能力。
在社会中,有一点非常重要, 因为你是人类,所以我会使用你 。在社会中,还有一个至关重要的任务——承担责任。没有人能够让 Agent 承担责任,人类社会需要有人来使用 Agent,或许你并不需要具备特别的能力,你仅需为 Agent 所生成的内容负责。
趋势分析 1——Agent 将削弱人们提问的能力
我非常欣赏李继刚老师的观点。在人工智能时代,人们提出好问题的能力可能会逐渐减弱,甚至不知如何提出有效的问题。
为了让 AI 执行指令,必须提供清晰的信息。然而,产品经理们知道,大部分人并不善于提供高质量的提示。如果希望产品能进入 C 端市场,就有必要降低使用门槛。要充分利用 AI 的能力,必须提供足够的信息。当信息越来越稀少时,提问的能力也会逐渐衰退。因此,这种变化值得我们警惕。
趋势分析 2——优秀的 Agent 应学会简化与遗忘
Agent 的一个重要功能是记忆,当前它在记忆方面表现良好,但未来可能会因记忆而遭遇挑战。记住过多的信息未必是好事,未来 Agent 的发展方向应是学会选择性遗忘。 选择性遗忘远比记忆要复杂得多 。当 Agent 能够实现遗忘功能时,通用 Agent 也将更进一步。
06 附录:Agent 基础概念
由于这部分内容属于基础知识,因此放在最后进行科普。Agent 的基本原理与组成是我们方案设计的基础。
1、智能体是什么?
Agent 也被称为智能体。我并不知道这个名称最初是谁起的,但我认为这个名字过于高大上,不如称其为“高级打工人”。
举个实际案例:
你在一家水果店工作,老板告诉你:本月希望店铺营收翻一番,希望你能实现这个目标。接到任务后,你开始进行以下几个步骤。
- 步骤 1:接收并理解老板的意图:营收增加一倍。
- 步骤 2:为了达成目标,你进行了大量调研,拆解任务:估算水果损耗,计算每日客流量,分析当季热销产品等。
- 步骤 3:最终确认解决方案:将西瓜榨成汁以提高利润,而香蕉损耗大且难以卖出应减少进货。
- 步骤 4:立即付诸实践,最终实现了店铺营收翻倍,甚至超出老板的期望。
案例中的高级打工人,正是一个优秀的 Agent。它能够清晰理解老板的意图,并为实现指令拆解任务、分析并输出解决方案,最后执行方案,达到预期效果。这就是 Agent 的工作原理。
2、智能体的结构模型
Agent 由三个核心要素构成:大脑、工具和记忆。无论系统多么复杂,根本上都离不开这三者。
- 大脑:为 Agent 提供智能的模型,如 Deepseek,它们负责信息获取、推理与规划等功能。
- 记忆:让 Agent 记住先前的对话(上下文、外部文件、数据库),以及执行任务过程中的操作,利用背景与上下文统一目标,从而做出更好的决策。
- 工具:各种外部工具,例如:API、MCP 等。
智能体通过自主编排这些元素,确保生成内容的高质量。这也引出了 Agent 的四大能力。
3、智能体的四大能力
1)信息感知能力 :输入层包括文本、图片和语音
最初,Agent 依赖于大语言模型,输入仅为文本。然而,现实中还有图片、语音等其他模态存在。因此,通过 OCR(光学字符识别)和 ASR(自动语音识别),将这些模态转化为文本,进而输入到大模型中;但这种方式效率较低。随后,工程师们增强了模型的端到端感知能力,使其支持图片和语音输入,从而更有效地分析信息,以用于后续的数据处理。
至此,大模型实现了多模态的感知能力,Agent 对外界信息的接收和感知也变得更加多样化和准确。
2)规划能力 :分析与思考的能力
为了赋予 Agent 这种能力,离不开一项重要的研究:《Tree of Thoughts》。该论文提出了“思维树”的概念。
简单来说,借助思维树,模型在解决问题之前能够主动拆解问题,并整理出多种解决方案,思考每个方案的步骤,最后选出最优解。
然而,现实世界问题复杂多变,现有的模型水平无法单独给出最佳解决方案。因此,工程师们将多个模型结合使用,像社会分工一样,各司其职,共同解决问题。例如,模型 A 负责任务 1,模型 B 负责任务 2。通过这种协作方式,任务被拆解并最终提供解决方案。
这种架构被称为智能体架构,coze 和 dify 就是一种生成智能体架构的平台。
3)行动能力
为了让 Agent 知道如何行动,工程师采用监督微调(SFT)的方法:通过人工标注高质量数据进行预训练,以便更好地完成特定任务。通过这种方式,模型学会了如何调用工具。
最常见的工具调用方式是通过 API,但在某些情况下没有 API 可用,因此 Claude 的母公司 Anthropic 发明了一个协议——MCP(模型上下文协议),将 API 的调用标准化,使许多没有 API 的功能也能被调用使用。
4)记忆能力
Agent 的记忆能力分为短期记忆与长期记忆。
- 短期记忆:Agent 的上下文记忆功能有字符限制。每次请求 Agent 时,它会自主查询之前交流的信息。由于字段限制,Agent 仅能记住有限的信息,超出限制的部分会自动截断,只能依据限制内的信息作出反应。
- 长期记忆:在许多场景中,需要模型具备长期记忆。因此,需要将历史数据存储在外部的向量数据库中。在用户发起请求时,依赖 RAG(检索增强生成)技术,从向量数据库中搜索相关内容匹配。这项技术还可以有效减少模型的幻觉现象。
结束语
AI 领域的相关内容繁杂无比,前几天的前沿技术,今天可能就会被超越。在如此庞大的信息面前,保持冷静思考至关重要。
作为人类,我们不应选择成为工作流的一部分。
创作不易,欢迎大家点赞、转发和评论。
参考文献
[1]《AI 智能体需求规格设计指南》,作者:比克
[2]《构建高效的智能体》,作者:Erik Schluntz 与 Barry Zhang
[3]《思维树》,作者:Shunyu Yao 等
本文由 @单车胡思 原创发布于人人都是产品经理。未经作者同意,不得转载
封面图片来源于 Unsplash,依据 CC0 协议使用