Agent 应用路线图

AI资讯 4小时前 charles
205 0

Agent 应用路线图
Agent 应用路线图

导读 在人工智能技术蓬勃发展的当下,大模型应用已成为推动各行业数字化转型的关键力量。本文将系统梳理大模型应用的核心实施路径,深度聚焦 Agent 设计与落地实践,结合前沿技术理念与实际应用场景,为从业者提供具有实操价值的方法论与经验参考。

Agent 应用路线图

右侧是作者技术博客里大模型技术图谱,每个方块代表一个专题,可以扫中间的二维码查看详情。

本次分享大纲:

1. LLM 应用方法

2. Agent 介绍

3. Agent 设计

4. Agent 应用

5. Agent 发展

6. 问答环节

分享嘉宾|王奇文 字节跳动(前) 算法负责人

编辑整理|陈锡杜

内容校对|李瑶

出品社区|DataFun


01

LLM 应用方法

1. 大模型重塑各行各业

Agent 应用路线图

原对话系统主流的流水线(pipeline)架构包含 NLUDMNLG 等模块,各司其职,依次串行。上一代对话系统体验不如预期,智能音箱、个人助理从人工智能变人工智障,发展陷入瓶颈。2022 年底,ChatGPT 为代表的大模型给对话系统带来巨大冲击,原有经验大多失效,需要按照大模型开发范式重塑。

  • NLU 模块:包含意图识别和槽位抽取模块,独立且局部依赖,现在借助大模型+Function Call 能力,简单场景编写提示词,复杂场景编排工作流就能完成。

  • DM 模块:原 DST  DP 单独处理,大模型之后,简单逻辑通过提示词构建,复杂逻辑涉及函数调用和工作流,交互逻辑不确定时,交给自动体进行智能决策。

  • NLG 模块:大模型角色模拟能力大幅增强,还能够接入外部资源。

  • 对话系统主流的流水线模式被大模型重构。

大模型对各行业都带来巨大冲击从行业价值来看,基础模型占比 60%AI 基础设施占 20%AI 应用占 20%

大模型早期只有大脑,缺少手脚,2024 年多模态迅猛发展使其具备更强的感官能力,近期的工具能力的发展,又加强了执行能力。Agent 能力将不断增强,应用场景也会越来越丰富。

2. 自然语言处理范式演变

Agent 应用路线图
  • 早期阶段:最早由语言学鼻祖乔姆斯基推出语法规则,试图让机器像人一样通过学习语法规则来理解语言,当时流行使用专家系统来解决语言问题。

  • 统计与神经网络语言模型阶段:先后出现统计语言模型、神经网络语言模型,以及以深度神经网络(transformer)为代表的预训练语言模型,如 BERTGPT-1GPT-2GPT-3 等,BERT 系列也有诸多进化版本。过去五六年时间里,对话系统主要集中在这一阶段,采用第二阶段、第三范式的“pre-train(预训练)”加“fine-tune(微调)”模式。

  • 大规模预训练语言模型阶段(第四范式)2022 年底,大规模预训练语言模型出现,进入第四范式。区别在于无需 fine-tune,直接将能力集成到基座大模型中,下游只需编写提示词并进行外部适配工作即可。

  • 学习能力的变化:过去是使用形式语言让机器模拟人类学习语言,而大模型时代引入“元学习”概念,学习能力更强。

3. 大模型应用范式分析

Agent 应用路线图

图中蓝色方框代表两阶段范式,预训练+微调,这两部分都得做。大模型时代,重点关注红框部分,即有一个基础模型,配合一些组件,比如微调组件、RAG 的组件,再写一些提示工程,整体完成之后,就可以对接到一些AI应用了。

Agent 应用路线图

左侧红色框内的基础模型,可通过不同方法进行更新。全参微调对模型所有层级参数进行调整,而 LORA 等局部参数微调仅更新部分参数。更新比例越高,模型能力提升越显著,但计算资源消耗、训练时间等成本也会随之增加。因此,面对新业务时,需要结合具体场景,来做选择。

Agent 应用路线图
  • 分析业务需求与推理环节优化:先对业务需求进行分析,从基本提示词入手,逐步升级到 Few-shot 以及 CoTGoTXoT 等各种演化版本,这些主要用于在推理环节提升效果。

  • 语料引用与模型能力学习策略:若需引用全量语料,可采用 RAG 流程,多个进化版本。当期望模型自身学习并记住相应能力,输出具有固定风格时,可采用 fine-tune 方案,也可将 RAG 和 fine-tune 结合起来。

  • Agent 策略及其特点Agent 比较特殊,与之前在基础模型上添加局部功能矫正、优化的方法不同。Agent 理论上与基座模型相互独立又存在相关性,基座模型能力直接影响 Agent 应用效果和上限。即使使用能力较弱的大模型,良好的 Agent 结构设计也能带来新的提升。

以上是对大模型应用方式的简要介绍,接下来将重点介绍 Agent 的概念和应用。

02

Agent 介绍

1. Agent 定义

Agent 应用路线图

人们日常处理的任务主要有两类:

  • 离散且孤立,例如:编程、下围棋以及简单的内容生成等,这些任务之间相互独立,不存在依赖关系。在围棋领域,AlphaGo 比较知名,还有游戏中的 AlphaZero 等也是这类任务的典型代表。

  • 连续且环境相关,比如:叫车出行、经营公司等,不断与环境进行交互。

大语言模型有个相关概念:“缸中之脑”或“瓮中之脑”。语言模型在所处环境中执行能力较弱,后来通过增加一些组件提升了感知能力,添加插件后执行能力也得到了增强。然而,它对现实世界的干预能力依旧不足。

Agent 应用路线图

一个重要的解决方案是 AI Agent。 SaaS 相关的企业及其产品,都将逐渐被 Agent 所取代。

2. RL-Based Agent 的困境与 LLM Based-Agent 的崛起

Agent 应用路线图

Agent 核心功能包含感知、规划和行动,起源于强化学习,在强化学习中智能体会与环境交互。实现方案先后经历了:RL-Based AgentLLM-Based Agent

早期强化学习因 AlphaGo 击败李世石而声名远扬。但其发展受到如下限制:

  • 应用领域局限,泛化能力不足。

  • 受具体任务限制,且只有在游戏或任务完成后,才能获得真实反馈,奖励机制稀疏,导致任务执行出现问题。

以大模型为驱动的 Agent 则具有诸多优势:

  • 具备世界知识:与上一代相比,天然具有一定世界知识,“世界模型”概念对 Agent 的规划和执行等操作很关键。

  • 推理规划能力:以 DeepSeek R1 为例(R2 未推出,预计推出后效果更好),具有推理规划能力。

  • 工具使用与上下文学习:具备工具使用以及上下文学习能力,使得 Agent 概念再次受到广泛关注。

Agent 应用路线图

Agent 具有自主性、反应性、社会性与主动性四大核心特性,除基座模型之外,还需要记忆能力、规划能力以及工具使用的能力。

3. Agent 组件

Agent 应用路线图

Agent 规划方面,实现思路是将大问题拆解成一个个小任务,逐一解决后再进行汇总。示例:CoT(思维链)和 ToT(思维树)。

另一个方向是反思,即对之前的方案自行思考是否合理,若有问题及时修改。

规划可以细分为有无反馈和有反馈两种类型,其中包含许多不同的方向。

Agent 应用路线图
  • ReAct(反应式),即先思考、行动,完成后观察环境,然后进一步思考并行动,如此循环。不过,ReAct 也存在局限性。

  • Reflecting(反思式),引入强化学习机制,行动时判断,比如强化学习中的“actor(行动者)”和“critic(评价者)”。此外,还有反思流程。整体而言,Reflecting 效果比单纯强化学习更好。

Agent 应用路线图
Agent 应用路线图

大模型本身无记忆能力,每次请求都是无状态。如何给大模型增添记忆能力?仿生思路,参考人类记忆方式设计 Agent 记忆。

Agent 记忆分为感知、短期记忆和长期记忆三类。感知侧重多模态方面;短期记忆包含工作记忆概念。

短期记忆实现方式:

  • 常规方式:调用大模型时设置参数,默认带上前面几次会话历史,形成简单的短期记忆,但受窗口长度限制。

  • 优化方式:当会话历史超过窗口长度时,可用前置摘要,用大模型处理历史信息,提取关键信息,突破部分窗口长度限制。

长期记忆的实现路径

  • 实现长期记忆常用 RAG(检索增强生成)方法。

Agent 应用路线图

工具使用涉及到 Agent 与外部环境进行交互等操作,并且在交互过程中,采用 Json 格式进行数据传输或指令传达等

Agent 应用路线图

在复杂任务场景中,单智能体面临明显局限:当需调用多种工具时,其工具识别与选择能力易受限,影响任务执行效率与效果;同时,单智能体决策模式单一,难以输出多样化结果。为突破这些瓶颈,多智能体系统成为更优选择,通过协同交互实现能力互补,显著提升任务处理灵活性。

多智能体架构组织方法:

  • 按智能体类型组织:可按照通用智能体和专业智能体的方向进行组织。

  • 编排模式

主从模式:采用 supervisor(监督者)加上 worker(工作者)模式。

点对点模式:各个 Agent 之间是对等关系。

当前,多智能体的设计仍然是 AI 领域一个具有挑战性的前沿课题。

03

Agent 设计

1. 大模型 Agent 进化之路:从 API 调用困境到增强式 LLM 雏形

Agent 应用路线图

最初人们直接调用大模型 API,之后关键环节的控制能力由弱变强。从直接调用 API 逐渐发展到增强式 LLM 阶段,形成了 Agent 的雏形。

早期调用大模型存在的主要问题为:

  • 无状态:虽然能选取上文获得一定状态,但本质上缺乏长时间的状态记忆。

  • 不稳定:大模型作为概率模型,每次调用结果可能不同。

通过调整参数缓解这些问题,如设置 temperaturetop k 等参数,可在一定程度上改善不稳定的状况。

增强式 LLM 中,通过增加一些工具、提升记忆和检索能力,进一步提升大模型整体的表现效果。

2. Agent 智能体演化路径

Agent 应用路线图
  • 智能体在横轴方向的演化:从单次大模型调用,逐步演变为单智能体,接着进一步发展到多智能体。

  • 智能体在垂直方向的演化:垂直方向上,智能体基于模型的推理性能及推理能力这两个维度进行演变。推理能力方面对应着如 R1R2O1O3 等推理大模型系列。

  • 单 Agent 和多 Agent 的关键组件:单 Agent 和多 Agent 都包含三个关键组件,即推理、评估和思考矫正的组件,这些组件在单 Agent 和多 Agent 中所扮演的环节在相关图中有展示。

3. 智能体工作流的迭代与多智能体架构的发展

Agent 应用路线图

2024 年底,Anthropic 专家做了关于如何构建更高效自动体的分享,相关图示对其方法进行了整体概要展示。

工作流(workflow)演变经历了从规则驱动的传统工作流,到如今由各种平台编排的 AI 工作流,未来主流将是 Agentic AI

具体模式:

  • 早期 Augmented LLM,将工具等组织拼接进去。

  • 工作流方面:

    先是链式结构,后增加路由分流环节,该环节在客服场景中常用。

    先分后合模式,让多个 Agent 完成同一件事,然后通过投票机制选取较好结果,以解决大模型输出不稳定问题,即选择高频出现的结果。

    “总--总”模式,将大任务拆解成小任务,识别后再合并。

    自我进化模式,执行后停下来,检查之前步骤是否错误,重新再来,这与之前的协作逻辑不同,是对抗逻辑。

智能体与工作流区别:关键流程环节是否具备自主决策思考能力,流程控制不再完全依赖人工定义。

多智能体架构也在发展,经历主从架构(协作式),到主从从架构(分多个层级解决问题),再到分布式结构(点对点方式,常见于社区交互)。

Agent 应用路线图

大模型应用模式迭代发展趋势,从原生大模型到增强式大模型,再到工作流迭代,之后又发展到单智能体、多智能体,甚至让智能体自己去设计自己的架构,即 Auto-Agent

典型应用。工作流方面,包含了链式、路由、并行分工、评估优化等。单智能体适合做工具调用,甚至任务规划。多智能体则有多种形式,如协同工作、更具层次的结构以及点对点的方式,还包括自动化设计。

4. 增强式 LLM 与智能体的演进:经验依赖变迁、能力迭代及应用新思考

Agent 应用路线图
  • 对专家经验的依赖程度:增强式 LLM 比较看重专家经验,需精心设计每个环节的提示工程;单智能体阶段对专家经验的依赖弱化;自动化智能体阶段能力大幅提升,进一步减少对专家经验的依赖。

  • 状态方面:增强式 LLM 上下文记忆,并涉及 RAG;智能体阶段从无状态转变为有状态,对状态的理解更为深入。

  • 能力方面:能力逐步提升,智能体重点在于规划思考,多方协作时规划思考能得到多方验证,从而增强能力,获得群体智能的收益。

  • 存在的问题及解决方式:幻觉、不稳定,工作流方式中由人控制主体逻辑可控制幻觉程度;单智能体若有反思矫正机制,能矫正一些错误规划。

  • 应用场景方面:应用场景从简单问题场景逐渐变得复杂,从确定逻辑到简单模糊情况,能解决问题的场景越来越多。应用场景中如何找到较快的应用路径?

04

Agent 应用

1. Agent 编排工具现状及编排系统的迭代演进

Agent 应用路线图

当前主流 Agent 编排工具包括:

  • 带 UI 工具:国内为大家熟知的有 difyCoze 以及百度千帆;国外有 LangChain 基础上搭建 UI 的 LangFlow(更多是流式结构,后升级成图式编排智能体的 LangGraph),还有 N8NFlowise AI 等。

  • 框架工具:国内有 Meta GPT、面壁智能的 chatdev;微软 AutoGenMegnetic-one(去年底刚推出,是对 AutoGen 的简化,因为 AutoGen 上手成本较高),还有  SWARM

原生 prompt 格式输出不稳定,于是限定特定格式(如节省 token 输出)并单独调用工具。之后升级为工具调用 Function Call,但 Function Call 也不稳定且逻辑简单。为解决对话逻辑编排问题,工作流诞生,本质是 Plugin 加强版,但与用户交互缺乏,执行过程依赖 prompt 且成本偏大。进而发展出单智能体,后来又演变成多智能体。

以 Coze 为例,左侧可以编排系统提示、设计人设、规划对话逻辑,还能配置常用工作流脚本,用户甚至可以上传自己的知识库、设置定时任务等,这些功能组合起来能够构建一个解决实际问题的机器人。

2. Coze 平台机器人模拟评估与多智能体实践

Agent 应用路线图

Coze 平台创建机器人后,如何自动化评估其对话质量成为关键问题。评估方式经历了三个阶段:

  • 初期人工测试:由运营员工手动开启机器人,提出 Bot 相关与不相关问题,基于主观体验预判效果,该方式人力成本高且评判标准不统一,结果差异大。

  • 流程自动化:将评估工作拆解为提问、评估等环节,纳入固定流程,通过标准化流程得出评估结果。

  • 用户自主评估:考虑到真实用户提问的不确定性,设置特定人设(包含学术背景、年龄等信息),随机选择用户和人设,由 Agent 决定作答反馈,最终通过评分卡从情绪反馈、回答表现等维度进行评估。

3. 多智能体在 Bot 自动标注中的应用与优势

Agent 应用路线图
  • 机器人组件与文本处理问题:机器人有很多组件,其中提示语较长,超出上一代 Bert 窗口要求。Transformer 处理文本时,上下文窗口有限制(如 512),超出可截断。机器人组件中除了提示词,还会调用 Pluginworkflow、自定义知识库。单个知识库是长文本文档,上一代 Bert 无法完整处理这些内容。

  • 标注的迭代过程:最初采用多人分工协作模式,真实标注大量事例。项目经理将标注需求拆分成几个小需求,让标注人员各自标注,再人工审核,通过即可验收,任务可交叉,这是典型的多人分工协作汇总模式。

  • 意图挖掘与标签标注:标注工作包括在已知意图里定义分类任务,并挖掘未知意图,从意图集合里“其他”类别中挖掘新标签。机器人组件会带技能标签,人工标注能力有限,人工标注机器人标签一般只能标两到四个,而每个机器人平均标签大致六到八个,所以人工标注不足。

  • Agent 质检与处理Agent 质检即审核,遇到幻觉时,直接丢弃可惜,因为有些幻觉是标签的近似表达,应召回矫正。新生成的标签要判断合理性,员工抽检合理后可放回,这样 label 集合是动态更新

  • 最终方案效果:Multi-Agent 方案效果比人工标注好很多,最终替换了人工标注。

4. 智能体开发:选型、模型、提示词与工具的优化策略

Agent 应用路线图
  • Agent 选型:不要直接从提示工程跳到多智能体,应该循序渐进。先通过提示工程测试不同模型能力,再设计工作流。工作流场景需具备可控逻辑,跳转逻辑可由智能体控制;逻辑复杂或规则繁重时采用单智能体,多方协作则用多智能体,逐步提升难度。

  • 基座模型:不要都用一种模型,应保持多样性;质检或评估等关键环节优先选用强模型;调用模型时,可对 TemperatureTop k 等参数调优,保证多样性,利于在同一任务中通过投票策略确保稳定性。

  • 提示工程:

    框架选择:主流框架丰富,如新加坡比赛夺冠的 Trace,以及常规的 few-shotcot 等。

    语言使用:英文提示效果优于中文,建议优先用英文表述任务。

    输出规范:输出需规范化;使用客气、专业的语言与大模型交互,符合其训练语料特性;如果提示工程太累,可采用 prompt 自动化方案。

  • 工具调用:大模型不适合客观推理任务(如数学计算),即便部分模型(如 DeepSeek R1 和 o3 系列)具备一定能力,仍需升级;执行客观任务时避免直接使用大模型,注意输出控制;调用工具前,需充分测试其名称描述、参数及有效性,否则易导致整体准确率大幅下降(如曾低至 50% 以下)。

  • Agent 设计:提示词过长会影响模型效果,建议通过摘要、RAG 等方式拆分任务;避免单个 Agent 承担过多任务,合理分配给多个智能体;为了提升结果稳定性/准确性,可设计并行(异步或同步多次请求)或串行请求(分阶段处理任务,中间环节添加 try  catch 捕获异常,防止运行中断与错误累积)。

  • 标注环节:用同一种模型(如 GPT-4)进行标注和质检不可行,会漏掉问题案例;DeepMind 论文显示,同种模型不能进行自我检查,强行矫正会显著降低整体准确度。

5. 智能体设计前沿:OpenAI 指南与 Anthropic 观点的深度解析

Agent 应用路线图

OpenAI 最近发布了智能体设计指南,指出智能体适用于三种场景:复杂决策、难以维护的规则系统以及严重依赖经验的非结构化数据。若不属于这些场景,则不建议使用智能体。在编排方式上,存在单智能体和多智能体,多智能体又包含管理者和去中心化两种模式。实施建议采用渐进式方法,在选择策略方面,先用最强大的模型进行探索,再使用相对较小的模型。同时,要有人工干预机制,设计阈值和风险触发点,并且在关键环节设置一定的防御措施。

Anthropic 4 月 号发布 Agent 设计指南(作者与上述相关内容为同一人),探讨了如何构建能力更强的智能体。核心观点:不要将智能体视为万能,不能所有问题都依赖智能体;要保持简单,这与机器学习早期的奥卡姆剃刀原理一致;定义任务时,自身要具备一定 Agent 思维。

Agent 适合解决逻辑复杂且高价值的业务,但成本高、延迟高,如果无法接受,则不建议使用。

最初整理的 Agent 发展阶段体现了对智能体应用场景和特点的综合考量 。

6. 智能体落地场景技术决策的思考

Agent 应用路线图

智能体落地时,如何进行技术决策:

  • 技术可行性验证:拿到需求后,先用可用的最强模型逐个验证,检查单点能力是否存在瓶颈。若有瓶颈,修改需求或接入更强的模型。

  • 成本和速度考量:以 DeepSeek 为例,其百万 Token 成本一到两块钱,每次调用成本约为 0.0001 人民币。若要求延迟控制在 0.5 秒以内,不适合用大模型,此时可选择 BERT 系列模型。很多人存在误区,认为只要是大模型就一定好,而忽略了上一代 BERT 系列或 GPT 系列等模型,BERT 系列模型响应时间较快,在特定任务上表现良好,实际应用中,应根据场景选择。

  • 模型选择依据Encoder 结构适合做理解任务,Decoder 结构适合做生成任务。分类任务涉及理解,因此不能完全否定BERT系列模型。

  • 错误容忍度:如果智能体误判给业务带来较大损失,建议引入人工干预或使用更可控的模型,此时不适合使用智能体。

  • 任务复杂程度:根据调用频次衡量任务简单与否,两次以内调用是简单任务,超过两次是复杂任务。对于复杂任务,若调用过程中不需要工具、自定义知识库、联网等,直接使用大模型多次调用即可;若需要,则使用增强 LLM

  • 任务逻辑与角色:对于复杂任务,若需要控制主体逻辑,使用工作流;若不需要,再判断是单角色还是多个角色协同。单角色任务使用单智能体即可,多角色协同任务则使用多智能体。

7. 智能体的困境与挑战

Agent 应用路线图

实际上,智能体并非万能,原因:大模型并非无所不能。有人认为大模型结合智能体就能实现通用人工智能(AGI),但实际上,距离 AGI 还很遥远,市面上某些工具的宣传存在夸张成分。

智能体存在的问题:

  • 记忆召回问题:常用的检索增强生成(RAG)本质上仍是检索思路,只能找到相关信息,而非因果关系。因此,智能体也会陷入只关注相关信息的问题,而要解决这个问题,需要寻找因果关系,如引入图神经网络方法或因果推理等方案。

  • 错误累积问题:当系统越来越复杂,尤其是串行架构时,误差会逐级放大。所以必须保证前面环节的质量稳定性,比如 Plugin 质量问题会直接影响智能体执行质量,这也是 OpenAI 开始自建 Plugin 体系的原因。

  • 探索效率问题:智能体(Agent)设计得越复杂,效率越低。如果让其自行决策,会出现各种冗余步骤,甚至把简单问题复杂化,同时 Token 花销也较大。因此,AutoGPT 会引入人工干预环节。

  • 任务终止和结果验证问题:任务终止以及结果验证方面,智能体表现不佳,尤其是对于评估标准模糊的开放问题,智能体可能一直运行,迟迟无法给出结果。一般可从数据及模型的训练,以及引入强化学习等方向进行改进。

伯克利论文分析了多智能体失败的原因,以 MetaGPTchatdev 等为例进行验证,发现失败率较高,达到 66% - 84%。具体原因:

  • 流程规划和任务划分不当会导致智能体失败。

  • 智能体间(Agent-Agent)协作,讨论无意义内容,导致效率低下,关键信息被忽略。

  • 一些系统缺乏任务验证,即便有验证,也往往不起作用。例如 Manus 很火,官方展示了让智能体写一个小米 SU7 的 PPT,虽然整个流程自动化程度很高,但仔细查看内容,会发现 PPT 质量一般,距离真正可用还有一定差距。

05

Agent 发展

1. Agent 发展趋势

Agent 应用路线图

未来,LLM Agent 发展趋势为:

  • 能力提升:推理能力增强,多模态能力提升(与人对环境的感知能力相关)。

  • 工具与场景:可使用工具增多,应用场景从通用转向特定。

  • 个性化与自动化:更多个性化信息输入,流程实现自主决策与自动化执行。

具体发展方向包括:

  • 基础模型:推理和多模态能力进一步增强。

  • 工具调用:以 MCP 为代表,推动工具调用更高效。

  • 信息突破:涉及 MCPA2A 等,突破数据边界。

2. MCP 介绍

Agent 应用路线图

MCP,即模型上下文协议,Anthropic 去年底推出,起初市场反响平平。但从今年一二月起,MCP 迅速走红,凭借让大模型便捷调用外部工具的特性,一跃成为行业焦点,备受开发者与企业关注。

其核心理念为致力于统一行业标准。在标准确立前,各模型及场景需人工编写逻辑,效率低下;标准制定后,各方只需符合标准即可直接对接,无需深入关注具体应用,极大简化操作流程。

MCP 具备多方面显著优势与价值,以电脑配件为例,只要对接 MCP 协议,配件可即插即用,无需了解实现细节;Server 也能按标准提供服务,无需在意应用侧效果,直观展现其便捷性。MCP 通过统一标准,显著提升工具调用能力,为开发者平台降低开发成本、提高效率,为用户侧带来更便捷、高效的使用体验,实现多方共赢。

3. A2A

Agent 应用路线图

Google 推出 A2A。如果用协议来类比,MCP 类似 Type-C 协议,而 A2A 类似蓝牙协议,蓝牙协议负责电脑与电脑间的信息传送,只要符合协议就能实现传输。

有观点认为 A2A 是 MCP 的替代品,其实二者互补。MCP 主要负责电脑与工具之间的交互,A2A 则专注于 Agent 与 Agent 之间交互,并且 A2A 是建立在 MCP 技术基础之上,二者属于协作关系。

有了 A2A 后,智能体间无需共享内存资源,就能实现动态通信。这就好比 WTO 协议,在世界经济领域中打破各国关税壁垒,极大地提升了交互效率。

下面通过一个招聘案例,介绍智能体系统的运作流程及优势。需求是招聘方要按自身要求找到一个候选人。

智能体系统任务执行过程如下:

  • 寻找候选人:智能体对需求进行任务拆分,先安排另一个智能体寻找相关候选人。

  • 信息反馈与补充:若未找到候选人,会进行反馈,询问招聘方能否提供更详细信息,如所在国家、地域等。

  • 候选人展示:获取更详细信息后,智能体展示若干候选人,以卡片形式呈现,提升了交互体验,而非简陋的纯文本形式。

  • 后续流程:完成候选人展示后,进入安排面试步骤,面试结束后还能进行后续操作,整个过程自动化程度较高。

该示例展示了智能体系统通过任务拆分,借助 A2A 调度多个智能体,寻找候选人,依据反馈获取详细信息后展示候选人,并实现后续面试及相关操作的自动化。

4. Agent 架构自动化的前沿进展

Agent 应用路线图

在自动化领域,强推理模型与自动化能力是两大核心要素。一方面,具备强大推理能力的基础模型是实现自动化的重要基石,它赋予系统对复杂问题的分析与决策能力;另一方面,如 ManusGenSpark 等工具,依托背后的虚拟环境,能够自主完成执行、分析等操作,生动展现了自动化能力在实践中的价值,二者相辅相成,共同推动自动化技术的发展与应用。

自动化方向的前沿探索:

  • 新加坡南洋理工的 MaAS:探索 Agent 架构设计进一步自动化,将机器学习里 AutoML 方法引入到 Agent 框架设计中,构建包含提示词、工作流、工具调用等基本单元的 Agent 操作网络。针对不同任务(如数学计算和写代码等)自动编排不同结构。

  • 加拿大大不列颠哥伦比亚大学的 ADAS:运用元 Agent 搜索(Meta-Agent-Search),将各种元素进行组合,设定搜索空间和搜索算法。算法在搜索空间中匹配不同组件,组成新的 Agent,然后在固定测试中进行验证。若效果良好,新 Agent 通过验证并进入候选。

2023 年 GUI Agent 的爆发式发展

Agent 应用路线图

GUI Agent 方面,从上图中可以看到,2023 年左右曲线增长迅猛,众多公司着手研究用 Agent 操控电脑和手机。如 OpenAI 的 Operator 和 Claude 的  Computer Use,对界面分析后能实现文本创作、打开微信、发送消息等操作,且操作的自动化程度不断提高。

以上就是本次关于 AI Agent 的分享内容。

06

问答环节

Q:如何让 Agent 理解相关性和因果性。

A这是个极具挑战性的课题,大模型在理解相关性和因果性方面存在显著短板。不改动模型的情况下,可尝试在提示词中融入 Fine-tuneCoT 等方法进行改进。更好的方案为改动模型,运用因果或图神经网络的方法重新提炼,使模型学到符号主义的特例,从符号主义角度理解因果更科学。长远而言,大模型若要真正实现类人推理能力,或许难以绕开符号主义路线。

以上就是本次分享的内容,谢谢大家。

Agent 应用路线图

Agent 应用路线图

分享嘉宾

INTRODUCTION


Agent 应用路线图

王奇文

Agent 应用路线图

字节跳动(前)

Agent 应用路线图

算法负责人

Agent 应用路线图

中国农业大学计算机硕士,10+年大厂算法研发经验,涉及深度学习、对话系统、大模型、AIGC 等领域

- 曾就职于百度、阿里、字节跳动等,豆包应用早期团队算法负责人,参与过垂类 LLM 训练及 AIGC 应用,豆包、Coze(扣子)研发
- 自媒体《鹤啸九天》,技术博客 300 多篇文章,大模型主题有 80 多篇,多篇文章阅读量破万,知乎优秀答主
- 书籍:《对话机器人入门实战》(初稿)、《图解大模型应用技术》(撰写中)
- 专利超 15 项,其中国际专利 3 项。


Agent 应用路线图
Agent 应用路线图

往期推荐


面向 Data+AI 的新一代数智开发平台

Databricks vs Snowflake,Data+AI最新发展趋势解读!

专访杨经纬:基于代码智能体的百度智能化研发落地实践

Agent应用实现新一代家居设计制造数字化转型

如何显著提升大数据任务ROI?

混元大模型与 DeepSeek 双引擎协同创新实践

大模型制胜宝典:解密AI高效访问策略

豆包大模型如何兼得「快直觉」与「深思考」?

多源湖仓数据集成在小米的应用与实践

微信大数据平台和AI框架规模化上云的优化实践之路

Agent 应用路线图

点个在看你最好看

SPRING HAS ARRIVED

Agent 应用路线图

版权声明:charles 发表于 2025年6月8日 pm6:56。
转载请注明:Agent 应用路线图 | AI工具大全&导航

相关文章