【技术】Agent应用路线图




内容简介  

如何应用Agent技术?



4月19日,我在Datafun上做了一期专题分享:Agent应用路线图

【技术】Agent应用路线图

探讨Agent技术、企业落地路线图,覆盖了豆包、Coze业务中提炼出来的经验积累。


以下是文字版讲解,仅供参考。


【技术】Agent应用路线图


分享大纲:

  • 从LLM应用方法引申出Agent方案

  • 介绍Agent基础知识,RL Agent与LLM Agent的区别

  • LLM Agent进化过程,架构设计方法

  • Agent 应用路线图

  • Agent 发展趋势,新技术(MCP/A2A/GUI Agent等)


【技术】Agent应用路线图


(1)LLM 应用方法


之前做过6年多对话系统项目,深刻体会到ChatBot研发的“理想美好”(CUI)和“现实残酷”

  • 对话式交互形式让人憧憬,而上一代pipeline技术栈又让人不得不面对现实,在业务需求与技术局限性中努力平衡。


详见往期文章:

  • 【2023-10-16】内部分享文字版:大模型时代,对话系统何去何从?

  • 【2024-11-14】IT-PUB 直播分享文字版:大模型时代对话系统(续)


【技术】Agent应用路线图


LLM横空出世后,对话系统技术栈受到巨大冲击,让人既喜又惊:

  • 2020年左右,各类chatbot(智能音箱/个人助理等)陷入困局,有多少人工,就有多少智能,一度被人戏称“人工智障”。有人断言,NLU方案只要还是“槽填充”,智障就无法避免。于是,ChatBot凉凉了。

  • 2022年底,以ChatGPT为代表的LLM,凭借强大的理解、生成能力让人再次燃起希望,“喜”。

  • 原来工业界主流的pipeline(流水线)架构与学术界demo级别的end2end(端到端)架构的地位互换,极简的自回归模式居然实现了end2end对话系统!

  • 随之而来的是“惊”,技术架构大变样,过往的pipeline架构经验大部分作废,对话系统开发成本也大幅降低,以前20人,现在只需要2-5人。


是的,我被LLM卷到了!


大模型技术攻占了对话系统60-80%的江山。


原pipeline架构里,NLU/NLG基本都被占领,DM也丢失了一半,剩下的ASR/TTS也在逐步被多模态LLM替掉。


为什么会这样?


LLM引起NLP范式的巨大变化:

  • 第三范式:2018-2022,以BERT为代表的pre-train+finetune 两阶段范式,下游根据任务单独微调才能使用。这个范式也才持续4年多。

  • 第四范式:2023年之后,LLM开始提示学习,只需要根据需求设计prompt,就可以直接完成任务,无须微调模型。

  • 第三范式到第四范式的快速切换,让大量NLP任务(底层/中层)“消失”,沉淀到基座LLM中,而NLP算法工程师被迫成了提示工程师

【技术】Agent应用路线图


实际上,第四范式的影响不止NLP,搜索、图像、视频、音频等都被波及。


接下来,大部分行业的大部分业务价值将被大模型拿走,已有应用需要按照LLM升级或重新设计。


详见:【拾象投研】大模型(LLM)最新趋势总结

【技术】Agent应用路线图


大模型技术如何落地?


面对业务场景,不再是首选微调,而是提示工程(PE)、检索增强生成(RAG)、微调,以及复兴的Agent技术。


【技术】Agent应用路线图


LLM应用范式区别:

  • 从PE到RAG,FineTune(局部+全部),模型权重更新比重逐步提升,效果更好,但代价更大。

【技术】Agent应用路线图


路线图如下:


  • 路线:PE-> Function Call ->Workflow-> RAG-> Finetune-> Agent

  • 其中,Agent特殊,与LLM相对无关,离AGI更近。

【技术】Agent应用路线图

详见往期文章:大模型落地技术路线图



(2)Agent 介绍


LLM是“缸中之脑”,只能解决离散、孤立的任务,特点是无时空依赖。

但真实场景中更多的是连续、环境捆绑的人物,这类任务LLM无能为力。

怎么办?AI Agent 连接了大模型与业务场景,充当了价值传递桥梁。


【技术】Agent应用路线图

模拟人脑决策方式(PDCA),精心设计Agent(关键能力:感知、规划和行动),与环境持续交互,进而完成任务。


【技术】Agent应用路线图

这个想法很早就有了,之前是强化学习(RL)驱动Agent,而现在成了LLM 驱动的Agent。

【技术】Agent应用路线图


智能体Agent的复兴依赖LLM Agent的特性:

  • 具备一定世界知识

  • 初步推理、规划能力

  • 工具适用能力

  • 上下文学习等


什么是Agent?

  • Agent = LLM + Memory + Plan + Tool


【技术】Agent应用路线图


分别概述核心模块:Memory、Plan和Tool


① Memory 记忆


LLM 本身没有记忆,每次请求都是无状态。

怎么办?模拟人脑记忆机制。


人类拥有DNA记忆短期记忆海马体记忆皮层记忆长期记忆,

【技术】Agent应用路线图


分别模拟三种记忆方式:感知记忆、短期记忆和长期记忆


【技术】Agent应用路线图


② Plan 规划:


【技术】Agent应用路线图


两种常见方法:ReAct、Reflecting(改进)


【技术】Agent应用路线图


更多:

【2024-2-5】中科大 Understanding the planning of LLM agents: A survey


③ Tool 工具


工具适用能力相当于给LLM装上“手脚”,具备行动能力。


【技术】Agent应用路线图

典型实现方式是2023年上半年推出的函数调用(Function Call)


④ 多智能体


单智能体(Single-Agent)能力有限,难以处理复杂问题,此时需要借助多智能体(Multi-Agent)。


【技术】Agent应用路线图

多智能体的自主性、容错性、灵活性更好,重点在于协作。

难点是如何组织Agent结构。


篇幅所限,不过多展开,更多Agent知识见往期文章:

  • 大模型智能体 LLM Agent

  • Agent技术解读:Memory记忆模块

  • Agent技术解读:Planning(规划)模块



(3)Agent 设计


由于LLM本身的不足:无状态、不稳定,使用方式从直接调用升级到RAG、工作流(workflow),再到Agent,自动化程度逐步提升。 


【技术】Agent应用路线图


Saleforce论文总结了Agent两个维度上的发展趋势:

  • 架构(横向):独立LLM→单智能体→多智能体

  • 性能(纵向):推理加速(提示词优化)、推理效果提升(对应推理LLMs)

【技术】Agent应用路线图

其中的关键组件是推理、评估和自我纠正。

【技术】Agent应用路线图


详见:

【2025-4-12】Salesforce A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems


论文有些晦涩,好在LLM顶级公司Anthropic的专家做了更详细、通俗易懂的报告

  • 【2024-12-19】AnthropicBuilding effective agents


图解如下:

  • 整体趋势:传统工作流(重规则)→AI工作流(局部自动化)→Agentic AI(主体自动化)

  • 工作流(workflow)的组织方式有多重:链式(串行)、路由分流、分总(并行)、总分总(协作)、自我进化(对抗)

  • 多智能体结构:主从(协作)、层次(主从从)、分布式(对等协作)

【技术】Agent应用路线图


组件选择依赖于业务场景,没有绝对的好坏。


进一步总结Agent应用模式演变过程:

  • 随着自动化程度越来越高,最终会实现全自动智能体

  • 其中,红框里部分是“Agentic AI”范畴,注意,增强型LLM包含在内。


【技术】Agent应用路线图

各个模式的优缺点分析:

  • PE依赖:从单智能体开始弱化,直至自动智能体,提示词不再重要。

  • 借助工具、记忆、规划等,LLM系统能力逐步增强,幻觉降低

  • 应用场景逐步扩大

【技术】Agent应用路线图



(4)Agent 应用


为了提升Agent设计效率,市面上有一堆Workflow、Agent编排系统:

  • Agent框架:MetaGPT、LangChain、AutoGen等

  • GUI 编排平台:Coze(扣子)、dify、LangGraph、n8n等


【技术】Agent应用路线图

箭头表示依赖关系,绿色表示开源,红色是闭源。


GUI 平台重在低代码开发Agent,这类平台跟随LLM技术同步升级:

  • 早期原生Prompt,通过限制格式来支持工具调用

  • 接着,诞生Function Call,工具调用效率提升

  • 工作流旨在提升主体流程的可控性,GUI降低门槛、提升开发效率

  • 单智能体进一步把控制权从人交给LLM,多智能体充分发挥群体智能。

【技术】Agent应用路线图

最后,呈现出多功能、多样式的交互形式:

【技术】Agent应用路线图

Coze还新增“应用”模式,用户直接拖拽组装交互页面,类似小程序。

最近,还推出“Manus”复现版:Coze Space 扣子空间,提前实现自动化智能体。


详见:【产品】字节版“Manus”:Coze Space 扣子空间怎么样?


Agent设计经验:从易到难,逐步迭代

【技术】Agent应用路线图

近期,OpenAI和Anthropic分别推出自己的Agent应用指南。

【技术】Agent应用路线图


大体思路差不多,都建议根据业务场景渐进迭代,Agent并非首选,系统设计要精简。

Anthropic经验比OpenAI更实在,值得仔细学习)


更多:

  • 【2025-4-17】A practical guide to building agents

  • 【2025-4-5】 Anthropic How We Build Effective Agents: Barry Zhang, 


根据个人经验,整理Agent应用路线图:

【技术】Agent应用路线图

说明:

  • 从左往右,决策因素有:技术可行性、成本/速度要求、错误容忍度、任务复杂程度、流程确定性、角色数目等

  • 根据自己的业务特性选择不同方案,一般以workflow+Agent为主。


注意:

  • 不要贪心,结构复杂的Multi-Agent并非首选


因为,Agent本身也有局限性,Multi-Agent效果不一定好!

【技术】Agent应用路线图




(5)Agent 发展


接下来,LLM Agent会怎么发展?


初步预估,会快速补齐已知短板,如:推理规划能力、工具效率、端侧设备操控、个性化信息感知、多模态交互等。


简而言之,基座LLM更强、工具调用更好、更加自动化。


【技术】Agent应用路线图


其中,MCP和A2A解决了工具、Agent交互瓶颈问题。


MCP推出才4个月,已迅速成为行业标准。

【技术】Agent应用路线图


刚推出不到两周的A2A,进一步加强Agent通信效率,破除数据孤岛。

【技术】Agent应用路线图



怎么让Agent更加自动化?


除了Manus、GenSpark等实现方案,学术界也在快速推进,比如:ADAS通过Meta Agent Search自主“合成”Agent,而 MaAS 把机器学习里的AutoML引入到Agent框架设计中。


【技术】Agent应用路线图


GUI Agent 继续提升Agent实用性,开始遍布各类终端设备:浏览器、操作系统、手机等。

【技术】Agent应用路线图

LLM还在不断进化,一步步逼近AGI。



附录


菜单栏“聊聊”->“大模型聊天”,或直接点击一下链接,可以体验多模态对话

大模型助手(小程序)


【技术】Agent应用路线图





版权声明:charles 发表于 2025年4月23日 am4:09。
转载请注明:【技术】Agent应用路线图 | AI工具大全&导航

相关文章