Agent 应用路线图

AI资讯 8个月前 charles

13.6K 0 20

导读在人工智能技术蓬勃发展的当下，大模型应用已成为推动各行业数字化转型的关键力量。本文将系统梳理大模型应用的核心实施路径，深度聚焦 Agent 设计与落地实践，结合前沿技术理念与实际应用场景，为从业者提供具有实操价值的方法论与经验参考。

右侧是作者技术博客里大模型技术图谱，每个方块代表一个专题，可以扫中间的二维码查看详情。

本次分享大纲：

1. LLM 应用方法

2. Agent 介绍

3. Agent 设计

4. Agent 应用

5. Agent 发展

6. 问答环节

分享嘉宾｜王奇文字节跳动（前）算法负责人

编辑整理｜陈锡杜

内容校对｜李瑶

出品社区｜DataFun

LLM 应用方法

1. 大模型重塑各行各业

原对话系统主流的流水线（pipeline）架构包含 NLU、DM、NLG 等模块，各司其职，依次串行。上一代对话系统体验不如预期，智能音箱、个人助理从人工智能变人工智障，发展陷入瓶颈。2022 年底，ChatGPT 为代表的大模型给对话系统带来巨大冲击，原有经验大多失效，需要按照大模型开发范式重塑。

NLU 模块：包含意图识别和槽位抽取模块，独立且局部依赖，现在借助大模型+Function Call 能力，简单场景编写提示词，复杂场景编排工作流就能完成。
DM 模块：原 DST 和 DP 单独处理，大模型之后，简单逻辑通过提示词构建，复杂逻辑涉及函数调用和工作流，交互逻辑不确定时，交给自动体进行智能决策。
NLG 模块：大模型角色模拟能力大幅增强，还能够接入外部资源。
对话系统主流的流水线模式被大模型重构。

大模型对各行业都带来巨大冲击，从行业价值来看，基础模型占比 60%，AI 基础设施占 20%，AI 应用占 20%。

大模型早期只有大脑，缺少手脚，2024 年多模态迅猛发展使其具备更强的感官能力，近期的工具能力的发展，又加强了执行能力。Agent 能力将不断增强，应用场景也会越来越丰富。

2. 自然语言处理范式演变

早期阶段：最早由语言学鼻祖乔姆斯基推出语法规则，试图让机器像人一样通过学习语法规则来理解语言，当时流行使用专家系统来解决语言问题。

统计与神经网络语言模型阶段：先后出现统计语言模型、神经网络语言模型，以及以深度神经网络（transformer）为代表的预训练语言模型，如 BERT、GPT-1、GPT-2、GPT-3 等，BERT 系列也有诸多进化版本。过去五六年时间里，对话系统主要集中在这一阶段，采用第二阶段、第三范式的“pre-train（预训练）”加“fine-tune（微调）”模式。
大规模预训练语言模型阶段（第四范式）：2022 年底，大规模预训练语言模型出现，进入第四范式。区别在于无需 fine-tune，直接将能力集成到基座大模型中，下游只需编写提示词并进行外部适配工作即可。
学习能力的变化：过去是使用形式语言让机器模拟人类学习语言，而大模型时代引入“元学习”概念，学习能力更强。

3. 大模型应用范式分析

图中蓝色方框代表两阶段范式，预训练+微调，这两部分都得做。大模型时代，重点关注红框部分，即有一个基础模型，配合一些组件，比如微调组件、RAG 的组件，再写一些提示工程，整体完成之后，就可以对接到一些AI应用了。

左侧红色框内的基础模型，可通过不同方法进行更新。全参微调对模型所有层级参数进行调整，而 LORA 等局部参数微调仅更新部分参数。更新比例越高，模型能力提升越显著，但计算资源消耗、训练时间等成本也会随之增加。因此，面对新业务时，需要结合具体场景，来做选择。

分析业务需求与推理环节优化：先对业务需求进行分析，从基本提示词入手，逐步升级到 Few-shot 以及 CoT、GoT、XoT 等各种演化版本，这些主要用于在推理环节提升效果。

语料引用与模型能力学习策略：若需引用全量语料，可采用 RAG 流程，多个进化版本。当期望模型自身学习并记住相应能力，输出具有固定风格时，可采用 fine-tune 方案，也可将 RAG 和 fine-tune 结合起来。
Agent 策略及其特点：Agent 比较特殊，与之前在基础模型上添加局部功能矫正、优化的方法不同。Agent 理论上与基座模型相互独立又存在相关性，基座模型能力直接影响 Agent 应用效果和上限。即使使用能力较弱的大模型，良好的 Agent 结构设计也能带来新的提升。

以上是对大模型应用方式的简要介绍，接下来将重点介绍 Agent 的概念和应用。

Agent 介绍

1. Agent 定义

人们日常处理的任务主要有两类：

离散且孤立，例如：编程、下围棋以及简单的内容生成等，这些任务之间相互独立，不存在依赖关系。在围棋领域，AlphaGo 比较知名，还有游戏中的 AlphaZero 等也是这类任务的典型代表。
连续且环境相关，比如：叫车出行、经营公司等，不断与环境进行交互。

大语言模型有个相关概念：“缸中之脑”或“瓮中之脑”。语言模型在所处环境中执行能力较弱，后来通过增加一些组件提升了感知能力，添加插件后执行能力也得到了增强。然而，它对现实世界的干预能力依旧不足。

一个重要的解决方案是 AI Agent。 SaaS 相关的企业及其产品，都将逐渐被 Agent 所取代。

2. RL-Based Agent 的困境与 LLM Based-Agent 的崛起

Agent 核心功能包含感知、规划和行动，起源于强化学习，在强化学习中智能体会与环境交互。实现方案先后经历了：RL-Based Agent和LLM-Based Agent。

早期强化学习因 AlphaGo 击败李世石而声名远扬。但其发展受到如下限制：

应用领域局限，泛化能力不足。
受具体任务限制，且只有在游戏或任务完成后，才能获得真实反馈，奖励机制稀疏，导致任务执行出现问题。

以大模型为驱动的 Agent 则具有诸多优势：

具备世界知识：与上一代相比，天然具有一定世界知识，“世界模型”概念对 Agent 的规划和执行等操作很关键。
推理规划能力：以 DeepSeek R1 为例（R2 未推出，预计推出后效果更好），具有推理规划能力。
工具使用与上下文学习：具备工具使用以及上下文学习能力，使得 Agent 概念再次受到广泛关注。

Agent 具有自主性、反应性、社会性与主动性四大核心特性，除基座模型之外，还需要记忆能力、规划能力以及工具使用的能力。

3. Agent 组件

Agent 规划方面，实现思路是将大问题拆解成一个个小任务，逐一解决后再进行汇总。示例：CoT（思维链）和 ToT（思维树）。

另一个方向是反思，即对之前的方案自行思考是否合理，若有问题及时修改。

规划可以细分为有无反馈和有反馈两种类型，其中包含许多不同的方向。

ReAct（反应式），即先思考、行动，完成后观察环境，然后进一步思考并行动，如此循环。不过，ReAct 也存在局限性。

Reflecting（反思式），引入强化学习机制，行动时判断，比如强化学习中的“actor（行动者）”和“critic（评价者）”。此外，还有反思流程。整体而言，Reflecting 效果比单纯强化学习更好。

大模型本身无记忆能力，每次请求都是无状态。如何给大模型增添记忆能力？仿生思路，参考人类记忆方式设计 Agent 记忆。

Agent 记忆分为感知、短期记忆和长期记忆三类。感知侧重多模态方面；短期记忆包含工作记忆概念。

短期记忆实现方式：

常规方式：调用大模型时设置参数，默认带上前面几次会话历史，形成简单的短期记忆，但受窗口长度限制。
优化方式：当会话历史超过窗口长度时，可用前置摘要，用大模型处理历史信息，提取关键信息，突破部分窗口长度限制。

长期记忆的实现路径：

实现长期记忆常用 RAG（检索增强生成）方法。

工具使用涉及到 Agent 与外部环境进行交互等操作，并且在交互过程中，采用 Json 格式进行数据传输或指令传达等。

在复杂任务场景中，单智能体面临明显局限：当需调用多种工具时，其工具识别与选择能力易受限，影响任务执行效率与效果；同时，单智能体决策模式单一，难以输出多样化结果。为突破这些瓶颈，多智能体系统成为更优选择，通过协同交互实现能力互补，显著提升任务处理灵活性。

多智能体架构组织方法：

按智能体类型组织：可按照通用智能体和专业智能体的方向进行组织。
编排模式：

主从模式：采用 supervisor（监督者）加上 worker（工作者）模式。

点对点模式：各个 Agent 之间是对等关系。

当前，多智能体的设计仍然是 AI 领域一个具有挑战性的前沿课题。

Agent 设计

1. 大模型 Agent 进化之路：从 API 调用困境到增强式 LLM 雏形

最初人们直接调用大模型 API，之后关键环节的控制能力由弱变强。从直接调用 API 逐渐发展到增强式 LLM 阶段，形成了 Agent 的雏形。

早期调用大模型存在的主要问题为：

无状态：虽然能选取上文获得一定状态，但本质上缺乏长时间的状态记忆。
不稳定：大模型作为概率模型，每次调用结果可能不同。

通过调整参数缓解这些问题，如设置 temperature、top k 等参数，可在一定程度上改善不稳定的状况。

增强式 LLM 中，通过增加一些工具、提升记忆和检索能力，进一步提升大模型整体的表现效果。

2. Agent 智能体演化路径

智能体在横轴方向的演化：从单次大模型调用，逐步演变为单智能体，接着进一步发展到多智能体。

智能体在垂直方向的演化：垂直方向上，智能体基于模型的推理性能及推理能力这两个维度进行演变。推理能力方面对应着如 R1、R2、O1、O3 等推理大模型系列。
单 Agent 和多 Agent 的关键组件：单 Agent 和多 Agent 都包含三个关键组件，即推理、评估和思考矫正的组件，这些组件在单 Agent 和多 Agent 中所扮演的环节在相关图中有展示。

3. 智能体工作流的迭代与多智能体架构的发展

2024 年底，Anthropic 专家做了关于如何构建更高效自动体的分享，相关图示对其方法进行了整体概要展示。

工作流（workflow）演变经历了从规则驱动的传统工作流，到如今由各种平台编排的 AI 工作流，未来主流将是 Agentic AI。

具体模式：

早期 Augmented LLM，将工具等组织拼接进去。
工作流方面：

先是链式结构，后增加路由分流环节，该环节在客服场景中常用。

先分后合模式，让多个 Agent 完成同一件事，然后通过投票机制选取较好结果，以解决大模型输出不稳定问题，即选择高频出现的结果。

“总-分-总”模式，将大任务拆解成小任务，识别后再合并。

自我进化模式，执行后停下来，检查之前步骤是否错误，重新再来，这与之前的协作逻辑不同，是对抗逻辑。

智能体与工作流区别：关键流程环节是否具备自主决策思考能力，流程控制不再完全依赖人工定义。

多智能体架构也在发展，经历主从架构（协作式），到主从从架构（分多个层级解决问题），再到分布式结构（点对点方式，常见于社区交互）。

大模型应用模式迭代发展趋势，从原生大模型到增强式大模型，再到工作流迭代，之后又发展到单智能体、多智能体，甚至让智能体自己去设计自己的架构，即 Auto-Agent。

典型应用。工作流方面，包含了链式、路由、并行分工、评估优化等。单智能体适合做工具调用，甚至任务规划。多智能体则有多种形式，如协同工作、更具层次的结构以及点对点的方式，还包括自动化设计。

4. 增强式 LLM 与智能体的演进：经验依赖变迁、能力迭代及应用新思考

对专家经验的依赖程度：增强式 LLM 比较看重专家经验，需精心设计每个环节的提示工程；单智能体阶段对专家经验的依赖弱化；自动化智能体阶段能力大幅提升，进一步减少对专家经验的依赖。

状态方面：增强式 LLM 上下文记忆，并涉及 RAG；智能体阶段从无状态转变为有状态，对状态的理解更为深入。
能力方面：能力逐步提升，智能体重点在于规划思考，多方协作时规划思考能得到多方验证，从而增强能力，获得群体智能的收益。
存在的问题及解决方式：幻觉、不稳定，工作流方式中由人控制主体逻辑可控制幻觉程度；单智能体若有反思矫正机制，能矫正一些错误规划。
应用场景方面：应用场景从简单问题场景逐渐变得复杂，从确定逻辑到简单模糊情况，能解决问题的场景越来越多。应用场景中如何找到较快的应用路径？

Agent 应用

1. Agent 编排工具现状及编排系统的迭代演进

当前主流 Agent 编排工具包括：

带 UI 工具：国内为大家熟知的有 dify、Coze 以及百度千帆；国外有 LangChain 基础上搭建 UI 的 LangFlow（更多是流式结构，后升级成图式编排智能体的 LangGraph），还有 N8N、Flowise AI 等。
框架工具：国内有 Meta GPT、面壁智能的 chatdev；微软 AutoGen、Megnetic-one（去年底刚推出，是对 AutoGen 的简化，因为 AutoGen 上手成本较高），还有 SWARM。

原生 prompt 格式输出不稳定，于是限定特定格式（如节省 token 输出）并单独调用工具。之后升级为工具调用 Function Call，但 Function Call 也不稳定且逻辑简单。为解决对话逻辑编排问题，工作流诞生，本质是 Plugin 加强版，但与用户交互缺乏，执行过程依赖 prompt 且成本偏大。进而发展出单智能体，后来又演变成多智能体。

以 Coze 为例，左侧可以编排系统提示、设计人设、规划对话逻辑，还能配置常用工作流脚本，用户甚至可以上传自己的知识库、设置定时任务等，这些功能组合起来能够构建一个解决实际问题的机器人。

2. Coze 平台机器人模拟评估与多智能体实践

Coze 平台创建机器人后，如何自动化评估其对话质量成为关键问题。评估方式经历了三个阶段：

初期人工测试：由运营员工手动开启机器人，提出 Bot 相关与不相关问题，基于主观体验预判效果，该方式人力成本高且评判标准不统一，结果差异大。
流程自动化：将评估工作拆解为提问、评估等环节，纳入固定流程，通过标准化流程得出评估结果。
用户自主评估：考虑到真实用户提问的不确定性，设置特定人设（包含学术背景、年龄等信息），随机选择用户和人设，由 Agent 决定作答反馈，最终通过评分卡从情绪反馈、回答表现等维度进行评估。

3. 多智能体在 Bot 自动标注中的应用与优势

机器人组件与文本处理问题：机器人有很多组件，其中提示语较长，超出上一代 Bert 窗口要求。Transformer 处理文本时，上下文窗口有限制（如 512），超出可截断。机器人组件中除了提示词，还会调用 Plugin、workflow、自定义知识库。单个知识库是长文本文档，上一代 Bert 无法完整处理这些内容。

标注的迭代过程：最初采用多人分工协作模式，真实标注大量事例。项目经理将标注需求拆分成几个小需求，让标注人员各自标注，再人工审核，通过即可验收，任务可交叉，这是典型的多人分工协作汇总模式。
意图挖掘与标签标注：标注工作包括在已知意图里定义分类任务，并挖掘未知意图，从意图集合里“其他”类别中挖掘新标签。机器人组件会带技能标签，人工标注能力有限，人工标注机器人标签一般只能标两到四个，而每个机器人平均标签大致六到八个，所以人工标注不足。
Agent 质检与处理：Agent 质检即审核，遇到幻觉时，直接丢弃可惜，因为有些幻觉是标签的近似表达，应召回矫正。新生成的标签要判断合理性，员工抽检合理后可放回，这样 label 集合是动态更新。

最终方案效果：Multi-Agent 方案效果比人工标注好很多，最终替换了人工标注。

4. 智能体开发：选型、模型、提示词与工具的优化策略

Agent 选型：不要直接从提示工程跳到多智能体，应该循序渐进。先通过提示工程测试不同模型能力，再设计工作流。工作流场景需具备可控逻辑，跳转逻辑可由智能体控制；逻辑复杂或规则繁重时采用单智能体，多方协作则用多智能体，逐步提升难度。

基座模型：不要都用一种模型，应保持多样性；质检或评估等关键环节优先选用强模型；调用模型时，可对 Temperature、Top k 等参数调优，保证多样性，利于在同一任务中通过投票策略确保稳定性。
提示工程：

框架选择：主流框架丰富，如新加坡比赛夺冠的 Trace，以及常规的 few-shot，cot 等。

语言使用：英文提示效果优于中文，建议优先用英文表述任务。

输出规范：输出需规范化；使用客气、专业的语言与大模型交互，符合其训练语料特性；如果提示工程太累，可采用 prompt 自动化方案。

工具调用：大模型不适合客观推理任务（如数学计算），即便部分模型（如 DeepSeek R1 和 o3 系列）具备一定能力，仍需升级；执行客观任务时避免直接使用大模型，注意输出控制；调用工具前，需充分测试其名称描述、参数及有效性，否则易导致整体准确率大幅下降（如曾低至 50% 以下）。
Agent 设计：提示词过长会影响模型效果，建议通过摘要、RAG 等方式拆分任务；避免单个 Agent 承担过多任务，合理分配给多个智能体；为了提升结果稳定性/准确性，可设计并行（异步或同步多次请求）或串行请求（分阶段处理任务，中间环节添加 try catch 捕获异常，防止运行中断与错误累积）。
标注环节：用同一种模型（如 GPT-4）进行标注和质检不可行，会漏掉问题案例；DeepMind 论文显示，同种模型不能进行自我检查，强行矫正会显著降低整体准确度。

5. 智能体设计前沿：OpenAI 指南与 Anthropic 观点的深度解析

OpenAI 最近发布了智能体设计指南，指出智能体适用于三种场景：复杂决策、难以维护的规则系统以及严重依赖经验的非结构化数据。若不属于这些场景，则不建议使用智能体。在编排方式上，存在单智能体和多智能体，多智能体又包含管理者和去中心化两种模式。实施建议采用渐进式方法，在选择策略方面，先用最强大的模型进行探索，再使用相对较小的模型。同时，要有人工干预机制，设计阈值和风险触发点，并且在关键环节设置一定的防御措施。

Anthropic 4 月 5 号发布 Agent 设计指南（作者与上述相关内容为同一人），探讨了如何构建能力更强的智能体。核心观点：不要将智能体视为万能，不能所有问题都依赖智能体；要保持简单，这与机器学习早期的奥卡姆剃刀原理一致；定义任务时，自身要具备一定 Agent 思维。

Agent 适合解决逻辑复杂且高价值的业务，但成本高、延迟高，如果无法接受，则不建议使用。

最初整理的 Agent 发展阶段体现了对智能体应用场景和特点的综合考量。

6. 智能体落地场景技术决策的思考

智能体落地时，如何进行技术决策：

技术可行性验证：拿到需求后，先用可用的最强模型逐个验证，检查单点能力是否存在瓶颈。若有瓶颈，修改需求或接入更强的模型。
成本和速度考量：以 DeepSeek 为例，其百万 Token 成本一到两块钱，每次调用成本约为 0.0001 人民币。若要求延迟控制在 0.5 秒以内，不适合用大模型，此时可选择 BERT 系列模型。很多人存在误区，认为只要是大模型就一定好，而忽略了上一代 BERT 系列或 GPT 系列等模型，BERT 系列模型响应时间较快，在特定任务上表现良好，实际应用中，应根据场景选择。
模型选择依据：Encoder 结构适合做理解任务，Decoder 结构适合做生成任务。分类任务涉及理解，因此不能完全否定BERT系列模型。
错误容忍度：如果智能体误判给业务带来较大损失，建议引入人工干预或使用更可控的模型，此时不适合使用智能体。
任务复杂程度：根据调用频次衡量任务简单与否，两次以内调用是简单任务，超过两次是复杂任务。对于复杂任务，若调用过程中不需要工具、自定义知识库、联网等，直接使用大模型多次调用即可；若需要，则使用增强 LLM。
任务逻辑与角色：对于复杂任务，若需要控制主体逻辑，使用工作流；若不需要，再判断是单角色还是多个角色协同。单角色任务使用单智能体即可，多角色协同任务则使用多智能体。

7. 智能体的困境与挑战

实际上，智能体并非万能，原因：大模型并非无所不能。有人认为大模型结合智能体就能实现通用人工智能（AGI），但实际上，距离 AGI 还很遥远，市面上某些工具的宣传存在夸张成分。

智能体存在的问题：

记忆召回问题：常用的检索增强生成（RAG）本质上仍是检索思路，只能找到相关信息，而非因果关系。因此，智能体也会陷入只关注相关信息的问题，而要解决这个问题，需要寻找因果关系，如引入图神经网络方法或因果推理等方案。
错误累积问题：当系统越来越复杂，尤其是串行架构时，误差会逐级放大。所以必须保证前面环节的质量稳定性，比如 Plugin 质量问题会直接影响智能体执行质量，这也是 OpenAI 开始自建 Plugin 体系的原因。
探索效率问题：智能体（Agent）设计得越复杂，效率越低。如果让其自行决策，会出现各种冗余步骤，甚至把简单问题复杂化，同时 Token 花销也较大。因此，AutoGPT 会引入人工干预环节。
任务终止和结果验证问题：任务终止以及结果验证方面，智能体表现不佳，尤其是对于评估标准模糊的开放问题，智能体可能一直运行，迟迟无法给出结果。一般可从数据及模型的训练，以及引入强化学习等方向进行改进。

伯克利论文分析了多智能体失败的原因，以 MetaGPT、chatdev 等为例进行验证，发现失败率较高，达到 66% - 84%。具体原因：

流程规划和任务划分不当会导致智能体失败。
智能体间（Agent-Agent）协作，讨论无意义内容，导致效率低下，关键信息被忽略。
一些系统缺乏任务验证，即便有验证，也往往不起作用。例如 Manus 很火，官方展示了让智能体写一个小米 SU7 的 PPT，虽然整个流程自动化程度很高，但仔细查看内容，会发现 PPT 质量一般，距离真正可用还有一定差距。

Agent 发展

1. Agent 发展趋势

未来，LLM Agent 发展趋势为：

能力提升：推理能力增强，多模态能力提升（与人对环境的感知能力相关）。
工具与场景：可使用工具增多，应用场景从通用转向特定。
个性化与自动化：更多个性化信息输入，流程实现自主决策与自动化执行。

具体发展方向包括：

基础模型：推理和多模态能力进一步增强。
工具调用：以 MCP 为代表，推动工具调用更高效。
信息突破：涉及 MCP、A2A 等，突破数据边界。

2. MCP 介绍

MCP，即模型上下文协议，Anthropic 去年底推出，起初市场反响平平。但从今年一二月起，MCP 迅速走红，凭借让大模型便捷调用外部工具的特性，一跃成为行业焦点，备受开发者与企业关注。

其核心理念为致力于统一行业标准。在标准确立前，各模型及场景需人工编写逻辑，效率低下；标准制定后，各方只需符合标准即可直接对接，无需深入关注具体应用，极大简化操作流程。

MCP 具备多方面显著优势与价值，以电脑配件为例，只要对接 MCP 协议，配件可即插即用，无需了解实现细节；Server 也能按标准提供服务，无需在意应用侧效果，直观展现其便捷性。MCP 通过统一标准，显著提升工具调用能力，为开发者平台降低开发成本、提高效率，为用户侧带来更便捷、高效的使用体验，实现多方共赢。

3. A2A

Google 推出 A2A。如果用协议来类比，MCP 类似 Type-C 协议，而 A2A 类似蓝牙协议，蓝牙协议负责电脑与电脑间的信息传送，只要符合协议就能实现传输。

有观点认为 A2A 是 MCP 的替代品，其实二者互补。MCP 主要负责电脑与工具之间的交互，A2A 则专注于 Agent 与 Agent 之间交互，并且 A2A 是建立在 MCP 技术基础之上，二者属于协作关系。

有了 A2A 后，智能体间无需共享内存资源，就能实现动态通信。这就好比 WTO 协议，在世界经济领域中打破各国关税壁垒，极大地提升了交互效率。

下面通过一个招聘案例，介绍智能体系统的运作流程及优势。需求是招聘方要按自身要求找到一个候选人。

智能体系统任务执行过程如下：

寻找候选人：智能体对需求进行任务拆分，先安排另一个智能体寻找相关候选人。
信息反馈与补充：若未找到候选人，会进行反馈，询问招聘方能否提供更详细信息，如所在国家、地域等。
候选人展示：获取更详细信息后，智能体展示若干候选人，以卡片形式呈现，提升了交互体验，而非简陋的纯文本形式。
后续流程：完成候选人展示后，进入安排面试步骤，面试结束后还能进行后续操作，整个过程自动化程度较高。

该示例展示了智能体系统通过任务拆分，借助 A2A 调度多个智能体，寻找候选人，依据反馈获取详细信息后展示候选人，并实现后续面试及相关操作的自动化。

4. Agent 架构自动化的前沿进展

在自动化领域，强推理模型与自动化能力是两大核心要素。一方面，具备强大推理能力的基础模型是实现自动化的重要基石，它赋予系统对复杂问题的分析与决策能力；另一方面，如 Manus、GenSpark 等工具，依托背后的虚拟环境，能够自主完成执行、分析等操作，生动展现了自动化能力在实践中的价值，二者相辅相成，共同推动自动化技术的发展与应用。

自动化方向的前沿探索：

新加坡南洋理工的 MaAS：探索 Agent 架构设计进一步自动化，将机器学习里 AutoML 方法引入到 Agent 框架设计中，构建包含提示词、工作流、工具调用等基本单元的 Agent 操作网络。针对不同任务（如数学计算和写代码等）自动编排不同结构。
加拿大大不列颠哥伦比亚大学的 ADAS：运用元 Agent 搜索（Meta-Agent-Search），将各种元素进行组合，设定搜索空间和搜索算法。算法在搜索空间中匹配不同组件，组成新的 Agent，然后在固定测试中进行验证。若效果良好，新 Agent 通过验证并进入候选。

2023 年 GUI Agent 的爆发式发展

GUI Agent 方面，从上图中可以看到，2023 年左右曲线增长迅猛，众多公司着手研究用 Agent 操控电脑和手机。如 OpenAI 的 Operator 和 Claude 的 Computer Use，对界面分析后能实现文本创作、打开微信、发送消息等操作，且操作的自动化程度不断提高。

以上就是本次关于 AI Agent 的分享内容。

问答环节

Q：如何让 Agent 理解相关性和因果性。

A：这是个极具挑战性的课题，大模型在理解相关性和因果性方面存在显著短板。不改动模型的情况下，可尝试在提示词中融入 Fine-tune、CoT 等方法进行改进。更好的方案为改动模型，运用因果或图神经网络的方法重新提炼，使模型学到符号主义的特例，从符号主义角度理解因果更科学。长远而言，大模型若要真正实现类人推理能力，或许难以绕开符号主义路线。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

王奇文

字节跳动（前）

算法负责人

中国农业大学计算机硕士，10+年大厂算法研发经验，涉及深度学习、对话系统、大模型、AIGC 等领域

- 曾就职于百度、阿里、字节跳动等，豆包应用早期团队算法负责人，参与过垂类 LLM 训练及 AIGC 应用，豆包、Coze（扣子）研发

- 自媒体《鹤啸九天》，技术博客 300 多篇文章，大模型主题有 80 多篇，多篇文章阅读量破万，知乎优秀答主

- 书籍：《对话机器人入门实战》（初稿）、《图解大模型应用技术》（撰写中）

- 专利超 15 项，其中国际专利 3 项。

往期推荐

面向 Data+AI 的新一代数智开发平台

Databricks vs Snowflake，Data+AI最新发展趋势解读！

专访杨经纬：基于代码智能体的百度智能化研发落地实践

Agent应用实现新一代家居设计制造数字化转型

如何显著提升大数据任务ROI？

混元大模型与 DeepSeek 双引擎协同创新实践

大模型制胜宝典：解密AI高效访问策略

豆包大模型如何兼得「快直觉」与「深思考」？

多源湖仓数据集成在小米的应用与实践

微信大数据平台和AI框架规模化上云的优化实践之路

点个在看你最好看

SPRING HAS ARRIVED

版权声明：charles 发表于 2025年6月8日 pm6:56。
转载请注明：Agent 应用路线图 | AI工具大全&导航

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

17K 20

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

13.6K 30

从模板到指标服务：解锁AI时代的数据新可能

charles

12.5K 30

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

15.5K 35

OA集成AI大模型简单实践-我把大模型集成到致远OA中系列

charles

17.6K 35

采购DeepSeek API成本对比与本地部署

charles

11.1K 25

Agent 应用路线图

众所周知！大模型应用构建面临的 6大误区

🧠 解码大语言模型的记忆力：上下文长度的前世今生

相关文章

相关文章