颠覆常规:探索AI智能体的创新应用与思维方式

共计 8009 个字符,预计需要花费 21 分钟才能阅读完成。

从 Coze 到 Dify,AI Agent 的应用正在迅速发展,从对话型转变为任务导向型。然而,真正的突破不在于功能的提升,而在于认知的进化。本文将深入分析智能体的应用路径,并结合非常规思维,助你构建更为系统的 Agent 策略。

编者近期专注于两个方面:

  1. 对一款 AI 产品进行全面的评测,特别是对 Notebooklm 进行了深入调研。
  2. 推动一款 AI 产品从零开始到上线的评测过程。

由于这两项工作均与智能体相关,因此我决定撰写一篇关于 Agent 的文章,主要内容如下:

  1. 如何选择工作流与智能体
  2. A2A 协议下的四种畅想连接模式
  3. Agent 的产品设计方案
  4. 智能体的反常识思考
  5. Agent 的基本原理与构成

01 选择工作流还是智能体?

在所有 AI 产品中,实现某项特定能力总会遇到一个关键问题:是选择智能体还是工作流?

智能体具备一项重要的能力,它拥有独立的“思维”,能够分析和理解输入的上下文,而工作流则不具备这一点,像是“失去了思考能力”。

在探讨如何做出选择之前,首先需要厘清它们的定义:

  • 工作流:一种预设的功能路径,旨在协调 LLMs 与工具之间的系统。
  • 智能体:通过 LLMs 自主决策并动态执行流程及工具使用,同时对任务完成的路径掌握控制权的系统。

工作流是静态的,遵循预设的 A —>B —>C 流程,仅仅是一个执行者。而智能体则是动态的,具备自主推理与决策能力。

在决定是使用智能体还是工作流时,需自问两个问题:

  • Q1:是否能通过优化提示词调用 LLM 来解决问题?
  • Q2:问题是否明确?是否能清晰地将其拆解为多个子任务?

在大多数情况下,通过检索和上下文示例优化单个 LLM 调用就能够解决许多问题。当任务明确且复杂程度不高时,使用工作流这种固定流程将提供可预测的解决方案。

然而,当需要大量灵活性以选择模型和其他工具时,智能体显然是更为理想的选择。

值得注意的是, 系统的复杂性与运行时间成本成正比 ,作为产品开发者,需要权衡这种成本是否在可接受范围内。

像 Coze 和 Dify 这样的平台虽然能帮助我们快速搭建智能体框架,但这种搭建过程会额外增加模型的抽象层,导致底层响应时间变慢,使得系统更难调试。如果条件允许,最好在代码层面直接进行调用。

另一个场景是,当问题极其复杂时,需要多个智能体协同合作才能实现最终目标。此时必须设定一个总代理智能体,以协调调用其他智能体共同分析问题并采取行动。

总之,选择应围绕具体问题场景,而非盲目追求系统框架的复杂性

若我们的 AI 产品需要上线,就必须尽量减少抽象层,使用基础组件来构建智能体。

复杂性并非目的,解决问题才是。

02 A2A 协议——未来 Agent 形态

最近我体验了一些多智能体协作的产品,其中百度推出的 GenFlow2.0 给我留下了深刻印象。从我输入的第一条指令开始,我就不断感叹“太惊艳了”。百度凭借长期积累的数据推出了这一重磅产品。据官方数据显示,GenFlow2.0 内部嵌入了 100 多位智能体专家。

作为用户,我从全流程体验了产品的任务规划、执行及工具调用,整个过程极为流畅,最终生成的内容质量也相当高,且在内容生成过程中,可以随时进行暂停。

在上面的图中,我们可以看到蓝色箭头指向“PPT 大师”这一智能体。GenFlow2.0 除了调用 MCP 或 API 外,还利用了内部设定的多个智能体来执行任务。这展示了通过调用智能体合作完成复杂任务的一个实际案例。

谷歌在今年 4 月提出了 A2A 协议(Agent to Agent)。借助这个协议,智能体调用的工具不仅限于 MCP 和 API,还可以是其他智能体。

我相信 A2A 协议很可能会得到广泛应用。随着智能体逐渐在每个用户终端设备上落地,AtoA 将不再只是平台智能体统一调用自研智能体的独角戏

基于 A2A 协议,我们可以进行进一步推演。两个 Agent 背后的角色可能相同也可能不同。Agent 可以是用户的个人智能体,也可以是企业的公有智能体。因此,可能会出现两两组合,形成四种甚至更多的 Agent 信息传递形式。

用户 A×企业 A / 用户 A 企业 A×用户 A / 企业 A

不同的排列组合将产生不同的交互方式。触发调用 Agent 的角色不同,获取的内容也会有所不同,形态设计也随之多样:

  • 用户为主体调用 Agent,根本上是为了获取物理世界的信息。在这一过程中,Agent 必须遵循人类社会的规范和道德标准。
  • 企业为主体触发 Agent,主要是为了获取世界模型的信息,此时 Agent 的任务是精确地描绘世界模型,注重数据交互的高效性和准确性。

接下来,我将从用户角色 Agent 触发调用的角度,设计一款 Agent。

03 Agent 设计原则

以手机作为载体来设计 Agent。在我看来,现有的 C 端硬件设备中,手机和电脑是最为理想的选择,因为软硬件智能体的结合在这些设备上能实现最优的用户体验。其原因如下:

  • 信息接收效果佳:文字输入方便,语音输入因为麦克风靠近用户,具备良好的收音效果,使得 ASR 识别率更高。
  • Agent 调度范围广泛:手机和电脑是目前应用程序最为集中的硬件,便于智能体进行统一调度。
  • 用户使用场景明确:涵盖娱乐、工作、学习、旅行、购物等多种场景。

Agent 可以分为两类:一类是具备专业技能的垂直型 Agent,另一类是能调度多种垂直技能的总管型 Agent。以频繁出差的需求为切入点,我将设计一款酒旅住宿智能体。

颠覆常规:探索 AI 智能体的创新应用与思维方式

在设计 Agent 之前,必须明确三条设计原则:稳定性、可靠性、安全性。

这些原则的制定旨在指导后续的产品决策,以确保整体方向不偏离。每一条原则背后都对应着一系列具体的行动计划。

原则一:稳定——确保功能的稳定性与可靠性

(1)能力边界:明确智能体所能解决的问题——例如,该智能体能够帮助用户从多个 OTA 平台中选择合适的酒店进行预订。

(2)允许与禁止的内容:仅能调用用户授权的应用、可用的 MCP 和 API;严禁未经许可调用软件,删除用户数据或发起收银。

原则二:可靠——确保功能逻辑的一致性与可解释性

(1)Agent 思维链:必要时,应向用户展示 Agent 的推理过程。

例如:好的,正在为您查找 798 附近的酒店,根据您的地理位置推断,您可能在寻找位于北京酒仙桥附近的酒店……

(2)任务执行可解释:基于外部信息获取答案时,应标明信息来源,并允许用户自行核实。

例如:根据 xx 天气网,未来一周有强降雨,请入住酒店时记得携带雨伞~

原则三:安全——确保个人与公共安全

(1)感知攻击:设计输入净化和输出过滤机制,识别敏感词和场景。

(2)幻觉内容:智能体可能出现“幻觉”,因此需要设计校验机制,确保工具调用的合法性与合规性。

(3)内容安全:制定内容审查工具,通过微调将社会基本价值观、道德标准和企业文化嵌入智能体,确保在面对灰色问题时的行为约束。

(4)隐私保护:Agent 仅应请求和存储完成任务所需的最小用户数据,且数据需保存在本地,未经允许不得上传到云端。如需上传,则必须告知用户数据的使用方式。

04 酒旅住宿 Agent 设计

前期需求评估是产品经理的基础技能,本段将跳过讨论这一环节。

1、产品定位与目标

(1)产品概述:在酒店预订的场景中,用户常常需要对比大量酒店的基础设施、价格和地理位置等信息,整个决策过程耗时较长。为了解决这一问题,我们设计了一款酒旅出行智能体,旨在帮助用户以最少的时间找到符合需求的酒店。

(2)目标:通过与用户和 AI 的多轮对话,力争在 5 分钟内找到满足用户预定需求的酒店。随着推荐酒店数据的增加,智能体将能更好地匹配用户心目中的理想酒店。

颠覆常规:探索 AI 智能体的创新应用与思维方式

2、能力边界与工具调用

1)核心能力

  • 理解用户复杂模糊的预定需求,并引导用户表达相关的内容(如位置、价格、时间、取消政策等)。
  • 在用户同意后,能够调用某程、某团、某猪等平台的 APP 或小程序。
  • 根据用户的偏好和历史选择,匹配并筛选酒店。

2)辅助能力

  • 支持用户在对话中随时打断 Agent 的推理,修改提示词。
  • 提供酒店入住时所需的清单和注意事项。
  • 根据本次入住需求,提出酒店住宿的建议。

3)能力边界

  • 不提供酒店接送等非入住相关的查询功能。
  • 所有表达内容都需附带 AI 生成的声明。

4)行为协议

  • 当用户表达模糊时,罗列需要补充的信息以便搜索目标酒店。
  • 当用户希望对比酒店时,结合大多数用户关注的维度和个人偏好,给出更具优势的产品建议。

5)工具集

  • API:选择 ChatGPT5、点评 API、小红书数据调用 API。
  • MCP:如某德地图等。
  • 向量数据库:储存用户在手机上的操作日志数据;统一认证服务。

3、Agent 形象定义与交互设计

(1)角色设定:高效、贴心且富有热情的酒店预订助手。

(2)性格特征:可靠、体贴、逻辑严谨,偶尔带有幽默感。充当酒店预订的专家。

(3)语言风格:简洁、礼貌、口语化以及专业化。能够在用户表达不清时,引导其明确 Agent 需要检索的内容。

例如 1:您好,请问有什么可以为您服务的呢?您此次入住有几位成人和儿童?是否需要包含早餐的房型?

例如 2:不喜欢这个酒店吗?那我们马上换一个,我又找到几家酒店,您更倾向于哪些方面呢?

(4)中高自主水平:能够识别用户入住意图,从众多酒店中选择符合用户要求的选项,并解释选择原因。

(5)用户确认:主动确认用户对酒店入住的要求,如预算、房型、是否需要早餐、距离地铁站的远近等。

(6)失败与恢复策略:处理指令模糊、信息缺失及执行失败的情况。

  • 指令模糊:“这个问题问得不错!‘性价比高’可以有很多理解。您是指靠近 xxx 园区,单晚价格在 200~300 元,并提供早餐、评价 90% 优秀的大床房吗?”
  • 信息缺失:“我没有找到符合您要求的五星级酒店,不过我发现了一家小红书上口碑不错的四星级酒店,您想看看吗?”
  • 执行失败:“抱歉~网络似乎出了点问题,请让我再试一次!”

4、数据收集

(1)数据采集与标注策略:Agent 训练时与技术算法共同制定训练集与测评集,并在使用过程中增加三类信号。

  • 强显示信号:最终保存的酒店,收藏的酒店。
  • 弱显示信号:选择替换的酒店方案。
  • 隐式信号:预定链接的使用次数,酒店替换的选择次数,修改提示词的频率。

注:测评集合绝不可参与训练过程,训练集需保证场景丰富全面且真实。

(2)量化指标:用于反映 AI 核心能力的指标,例如:任务成功率、意图识别准确度、用户信任度。对于一些无法量化的场景,可以采取二分法。

(3)基准测试建立:设计标准化的测试集与流程,以评估模型迭代的效果,例如:预设高质量的 SFT 数据(未进行大量对话前下单的酒店数据),用于模型训练。

5、Agent 护栏

(1)风险护栏:明确不可执行的行为范围,并处理相关约束内容。

(2)公平性:避免偏向大型连锁品牌,严格依据用户历史预定偏好和大数据反馈。

(3)安全隐私:严禁生成任何基于种族、国籍、性别或宗教的歧视性言论,尽量减少数据采集。

(4)可解释性:在适当时机向用户展示 Agent 的决策推理链路。

6、评测与度量标准

(1)评测要求:预设 100 个评测场景,针对核心问题、边界问题和无关问题进行拆解,问题的答案需给出预期的理想酒店推荐或回复。

(2)迭代与指标评估:

  • 酒店收藏的对话数 / 开启对话沟通次数(可限制数量)*100%
  • 成功下单的酒店数 / 有效推荐酒店对话数 *100%
  • 一轮对话中成功收藏或下单的次数 / 总酒店推荐数 *100%
  • 查询指令的执行成功率、结果准确性(通过与人工分析结果对比)、问题的平均回复时间、酒店推荐的满意度(显性按钮 + 隐性下单概率)。

7、迭代部署与持续进化

(1)分阶段上线:制定从内部测试验收、小范围推广到全面上线的计划。

(2)性能监控:部署监控系统,实时跟踪关键评估指标和数据漂移情况。

(3)反馈闭环的建立:收集预设的显性和隐性用户反馈,以优化 Agent。

(4)上线版本评测:上线后,使用评测集进行再次评测,确保 Agent 在核心场景中的稳定性、可靠性和安全性。

(5)迭代方向:V1.0 版本仅允许查询单个平台的酒店信息并下单。V2.0 版本则能够同时查询多个平台,进行比价,并结合用户的历史订单记录推荐酒店。并记录 Agent 的成功指标(任务成功率、独立问题解决率、用户信任度、工具调用准确率)。

在整个流程中,有一个核心要点需要强调:一旦 Agent MVP 版本的设计完成,必须立即进行评测!评测应贯穿整个过程,许多 AI 产品经理可能未意识到,AI 技术生成内容存在不稳定性。 评测驱动应贯穿整个 AI 产品的生命周期。

05 Agent 的逆向思维与趋势分析

经过长时间的产品评测与大量资料的研究,编者整理出了一些关于 Agent 的逆向思维和未来趋势的洞见。每一点都值得产品经理深入探讨其内在逻辑,并作为产品设计的实践原则。

逆向思维 1:通用智能如同一个圆,永远在接近。行业智能更具实用性

Agent 可被划分为两大类:通用型和行业专属型。Agent 的智能水平源自于模型的能力,而行业专属 Agent 则不需过度依赖复杂的模型,且在实施上成本更低,短期内更易达成。例如,可以构建一个针对特定行业的“GenFlow”。

虽然我没有进行严格的统计,但据我了解,GenFlow2.0 是国内首个实现 100 多个 Agent 调用的产品。未来可能会出现 1000 个甚至 10000 个的实例。“ 通用”Agent 或将通过 A2A 协议连接多个智能体的产生

伪通用智能将会由一个总代理 Agent 负责调度这些具备不同专业能力的 Agent。对这个总代理 Agent 的要求是:具备极强的适应性与调度能力。

逆向思维 2(产品层面):不必为所有任务都创建或使用智能体

智能体被过度神化。很多人可能认为只要加上“智能”二字,就能够掩盖在某些场景中它的不足之处。

更何况在某些特定情况下,即便 Agent 足够智能,它也无法完全替代传统的操作方式。否则,为什么还有许多人选择不佩戴智能手表,依旧使用传统的指针手表呢?

我们应回归到最初的场景,关注用户、需求以及商业价值,从而定义产品方案。

逆向思维 3(人文角度):人类是责任的承担者

尽管 Agent 能够替代部分人的工作,但这并不意味着它能完全取代人类。Agent 的定位应是:帮助人类提高效率,重点在于支持与辅助。如果你日常的工作是辅助性的,而缺乏“智能”,那么你必然会被取代。这可能是其他人,也可能是 Agent, 因为成本的原因

我们需要重新审视自己与 Agent 之间的关系。Agent 应被视为提升我们效率的生态能力。

在社会中,有一点非常重要, 因为你是人类,所以我会使用你 。在社会中,还有一个至关重要的任务——承担责任。没有人能够让 Agent 承担责任,人类社会需要有人来使用 Agent,或许你并不需要具备特别的能力,你仅需为 Agent 所生成的内容负责。

趋势分析 1——Agent 将削弱人们提问的能力

我非常欣赏李继刚老师的观点。在人工智能时代,人们提出好问题的能力可能会逐渐减弱,甚至不知如何提出有效的问题。

为了让 AI 执行指令,必须提供清晰的信息。然而,产品经理们知道,大部分人并不善于提供高质量的提示。如果希望产品能进入 C 端市场,就有必要降低使用门槛。要充分利用 AI 的能力,必须提供足够的信息。当信息越来越稀少时,提问的能力也会逐渐衰退。因此,这种变化值得我们警惕。

趋势分析 2——优秀的 Agent 应学会简化与遗忘

Agent 的一个重要功能是记忆,当前它在记忆方面表现良好,但未来可能会因记忆而遭遇挑战。记住过多的信息未必是好事,未来 Agent 的发展方向应是学会选择性遗忘。 选择性遗忘远比记忆要复杂得多 。当 Agent 能够实现遗忘功能时,通用 Agent 也将更进一步。

06 附录:Agent 基础概念

由于这部分内容属于基础知识,因此放在最后进行科普。Agent 的基本原理与组成是我们方案设计的基础。

1、智能体是什么?

Agent 也被称为智能体。我并不知道这个名称最初是谁起的,但我认为这个名字过于高大上,不如称其为“高级打工人”。

举个实际案例:

你在一家水果店工作,老板告诉你:本月希望店铺营收翻一番,希望你能实现这个目标。接到任务后,你开始进行以下几个步骤。

  • 步骤 1:接收并理解老板的意图:营收增加一倍。
  • 步骤 2:为了达成目标,你进行了大量调研,拆解任务:估算水果损耗,计算每日客流量,分析当季热销产品等。
  • 步骤 3:最终确认解决方案:将西瓜榨成汁以提高利润,而香蕉损耗大且难以卖出应减少进货。
  • 步骤 4:立即付诸实践,最终实现了店铺营收翻倍,甚至超出老板的期望。

案例中的高级打工人,正是一个优秀的 Agent。它能够清晰理解老板的意图,并为实现指令拆解任务、分析并输出解决方案,最后执行方案,达到预期效果。这就是 Agent 的工作原理。

2、智能体的结构模型

Agent 由三个核心要素构成:大脑、工具和记忆。无论系统多么复杂,根本上都离不开这三者。

  • 大脑:为 Agent 提供智能的模型,如 Deepseek,它们负责信息获取、推理与规划等功能。
  • 记忆:让 Agent 记住先前的对话(上下文、外部文件、数据库),以及执行任务过程中的操作,利用背景与上下文统一目标,从而做出更好的决策。
  • 工具:各种外部工具,例如:API、MCP 等。

智能体通过自主编排这些元素,确保生成内容的高质量。这也引出了 Agent 的四大能力。

3、智能体的四大能力

1)信息感知能力 :输入层包括文本、图片和语音

最初,Agent 依赖于大语言模型,输入仅为文本。然而,现实中还有图片、语音等其他模态存在。因此,通过 OCR(光学字符识别)和 ASR(自动语音识别),将这些模态转化为文本,进而输入到大模型中;但这种方式效率较低。随后,工程师们增强了模型的端到端感知能力,使其支持图片和语音输入,从而更有效地分析信息,以用于后续的数据处理。

至此,大模型实现了多模态的感知能力,Agent 对外界信息的接收和感知也变得更加多样化和准确。

2)规划能力 :分析与思考的能力

为了赋予 Agent 这种能力,离不开一项重要的研究:《Tree of Thoughts》。该论文提出了“思维树”的概念。

简单来说,借助思维树,模型在解决问题之前能够主动拆解问题,并整理出多种解决方案,思考每个方案的步骤,最后选出最优解。

然而,现实世界问题复杂多变,现有的模型水平无法单独给出最佳解决方案。因此,工程师们将多个模型结合使用,像社会分工一样,各司其职,共同解决问题。例如,模型 A 负责任务 1,模型 B 负责任务 2。通过这种协作方式,任务被拆解并最终提供解决方案。

这种架构被称为智能体架构,coze 和 dify 就是一种生成智能体架构的平台。

3)行动能力

为了让 Agent 知道如何行动,工程师采用监督微调(SFT)的方法:通过人工标注高质量数据进行预训练,以便更好地完成特定任务。通过这种方式,模型学会了如何调用工具。

最常见的工具调用方式是通过 API,但在某些情况下没有 API 可用,因此 Claude 的母公司 Anthropic 发明了一个协议——MCP(模型上下文协议),将 API 的调用标准化,使许多没有 API 的功能也能被调用使用。

4)记忆能力

Agent 的记忆能力分为短期记忆与长期记忆。

  • 短期记忆:Agent 的上下文记忆功能有字符限制。每次请求 Agent 时,它会自主查询之前交流的信息。由于字段限制,Agent 仅能记住有限的信息,超出限制的部分会自动截断,只能依据限制内的信息作出反应。
  • 长期记忆:在许多场景中,需要模型具备长期记忆。因此,需要将历史数据存储在外部的向量数据库中。在用户发起请求时,依赖 RAG(检索增强生成)技术,从向量数据库中搜索相关内容匹配。这项技术还可以有效减少模型的幻觉现象。

结束语

AI 领域的相关内容繁杂无比,前几天的前沿技术,今天可能就会被超越。在如此庞大的信息面前,保持冷静思考至关重要。

作为人类,我们不应选择成为工作流的一部分。

创作不易,欢迎大家点赞、转发和评论。

参考文献

[1]《AI 智能体需求规格设计指南》,作者:比克

[2]《构建高效的智能体》,作者:Erik Schluntz 与 Barry Zhang

[3]《思维树》,作者:Shunyu Yao 等

本文由 @单车胡思 原创发布于人人都是产品经理。未经作者同意,不得转载

封面图片来源于 Unsplash,依据 CC0 协议使用

正文完
 0
小智
版权声明:本站原创文章,由 小智 于2025-09-22发表,共计8009字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
使用智语AI写作智能工具,您将体验到ChatGPT中文版的强大功能。无论是撰写专业文章,还是创作引人入胜的故事,AI助手都能为您提供丰富的素材和创意,激发您的写作灵感。您只需输入几个关键词或主题,AI便会迅速为您生成相关内容,让您在短时间内完成写作任务。
利用AI智能写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效率,激发灵感。来智语AI体验 ChatGPT中文版,开启你的智能写作之旅!
评论(没有评论)
利用智语AI写作工具,轻松生成高质量内容。无论是文章、博客还是创意写作,我们的免费 AI 助手都能帮助你提升写作效ai率,激发灵感。来智语AI体验ChatGPT中文版,开启你的智能ai写作之旅!