从生成到执行:Agentic AI的技术迁移与AI的垂直领域落地
-
前言 -
一、 AI能力的三次演进 -
二、 技术演进的历史脉络 -
技术一:反应式基础模型的出现 -
技术二:基于外部系统的能力增强 -
技术三:后训练范式的探索与确立 -
技术四:Agentic AI的出现与能力内化 -
三、 Agentic AI 的议题 -
1. 定义:Agentic AI 与 AI Agent -
2. 驱动力:范式转移的技术与市场动因 -
3. 影响:交互、生态与产业的系统性变革 -
4. 战略:应用场景的选择框架 -
5. 实现:构建 Agentic AI 的技术要素 -
结语 -
参考文献
前言
人工智能的发展正进入一个新的阶段。Gartner在其对2025年顶级科技趋势的分析中,将代理式AI(Agentic AI)置于首位,并预测到2028年,日常工作决策中或将有15%由其自主完成[^11]。

这一趋势背后,反映了AI能力构建的重点,正从"生成内容"向"执行任务"迁移。本文旨在以技术演进的视角,对该范式转移进行梳理与分析。文章将回溯深度学习与生成式AI的发展,并论证当前的技术路径,正从依赖大规模预训练的单一模式,演进为以强化学习(RL)后训练为关键、面向特定领域构建"智慧体"(Agent)的新阶段。
此种转变是AI能力构建逻辑变化的体现。基础大模型的预训练,因其对算力、数据和资本的高度依赖,在可预见的未来或仍将由少数大型科技公司主承。然而,Agentic AI的出现并非旨在分割现有市场,而是通过提供高度定制化的任务解决能力,为通用模型难以有效覆盖的专业领域开拓了新的价值空间。随着高质量公开文本数据的趋于饱和与算力成本的相对变化,基础模型的通用能力增长可能面临边际效益递减。一个以领域微调和迭代式离线强化学习为特点的、更加开放和多元的技术生态或在形成之中。
本文将首先厘清一个基本概念:本文所讨论的Agentic AI,并非当前流行的、依赖提示词工程进行外部编排的AI Agent,而是一种将规划与执行能力内化为模型参数的"智慧体"。它的出现不仅是一个技术转折点,也可能对软件产业形态带来深远影响。
一、 AI能力的三次演进
自2006年Geoffrey Hinton等人为深度学习奠定基础以来,人工智能的能力发展经历了三个主要阶段。

-
第一阶段:预测AI (Predictive AI)
-
主要问题:"识别与分类",技术上对应于学习一个条件概率分布 。 -
历史突破:以2012年AlexNet在ImageNet竞赛的成功为标志,深度学习解决了传统方法难以处理的复杂模式识别问题。 -
技术定位:一个高效的感知与判断工具,能够处理机器视觉、语音识别等任务。
第二阶段:生成AI (Generative AI)
-
主要问题:"模仿与创造",技术上对应于学习数据的联合概率分布 。 -
历史突破:以ChatGpt和DALL-E模型为代表,AI不再仅能分析数据,更能学习其内在分布,并创造出全新的、结构一致的内容。 -
技术定位:一个强大的内容生产力工具。
第三阶段:代理AI (Agentic AI)
-
主要问题:"规划与执行",技术上对应于学习一个策略 以最大化累积奖励 。 -
历史突破:以大语言模型为基础,AI开始展现自主规划、调用工具并完成复杂目标的能力。 -
技术定位:一个能够交付成果的目标解决服务。
在此演进路径上,一个自然的延伸是物理AI (Physical AI) 。英伟达CEO黄仁勋在GTC大会上将其列为Agentic AI之后的阶段[^12]。此观点亦得到学界印证,谷歌DeepMind的机器人科学家Alex Irpan在其博文《现实的悲剧正在向你袭来》中指出[^7],物理世界的复杂性、不可加速与不可复制性,构成了比数字智能体艰巨得多的挑战。因此,将物理AI置于Agentic AI之后,符合技术演进的逻辑。
当前或正处在从第二阶段"生成"向第三阶段"代理"过渡的关键时期。
二、 技术演进的历史脉络
理解当前的转折点,需要梳理从传统大语言模型到Agentic AI的技术发展脉络。
技术一:反应式基础模型的出现
从GPT模型与规模法则(Scaling Law)的发现开始,AI技术的关注点从算法创新向工程实现发生部分转移。其构建过程融合了三种关键技术:
-
预训练 (Pre-training) :在海量文本上进行无监督学习(如"下一个词预测"任务),使模型内隐地掌握了语法、事实和一定的推理模式。这是其通用能力的基石。 -
监督微调 (SFT) :利用高质量的"指令-回答"数据对进行有监督学习,使模型的输出格式和内容与人类的指令意图对齐,完成了从"文本续写"到"对话助手"的转变。 -
对齐 (Alignment) :主要采用基于人类反馈的强化学习(RLHF),通过人类偏好数据训练一个奖励模型,再用其指导语言模型生成更符合人类价值观的回答。
此阶段的产物是一个反应式(Reactive)系统:它响应用户输入,生成一个静态的、一次性的高质量输出。其智能是被动的,缺乏主动规划、试错和适应环境的能力。
技术二:基于外部系统的能力增强
由于基础模型自身不具备与外部世界交互或执行多步任务的能力,业界早期转向了在应用层进行能力"补偿"的工程化路径。在不改变模型权重的前提下,两种主流方案应运而生:
-
检索增强生成 (RAG):该技术为模型连接了外部知识库(如企业数据库、实时信息源),以弥补其内部知识的"过时性"和"局限性",并缓解"模型幻觉"问题。这可以视为对模型知识能力的外部增强。 -
AI Agent (基于Prompt工程):此方案通过一个外部的"编排器"(Orchestrator)程序,将一个复杂任务手动拆解为多个子步骤。在每个步骤中,编排器负责生成相应的提示词(Prompt)、调用LLM或外部工具(API),并维护整个任务的上下文状态。这可以视为对模型行动与规划能力的外部增强。
在此历史阶段,系统的主要规划与决策逻辑位于模型之外,以固化的代码或流程形式存在。这种"模型即引擎"的模式虽在当时有效,但其能力上限和灵活性受限于外部编排系统的设计,为后续将能力内化至模型自身的范式变革埋下了伏笔。
技术三:后训练范式的探索与确立
反应式模型的内在局限性与外部增强方案在可扩展性上的挑战,共同将技术演进推向了下一阶段:通过专门的后训练(Post-training)直接增强模型的能力,而非仅仅在应用层"套壳"。此探索的重点,是将模型的优化目标从"最大化下一词预测概率"转向"最大化任务成功率"。强化学习(RL)成为了实现这一目标的关键技术。
早期的探索是奖励引导的搜索(Reward-Guided Search)。基于一个预先训练好的奖励模型(Reward Model, RM),模型在生成答案时不再是单路径输出,而是可以进行显式的树状或束状搜索,探索多条推理路径,并选择奖励模型评分最高的一条。赋予了模型初步的"反思"和"择优"能力,但其搜索过程是在推理时(Inference-time)进行,并未改变模型自身的参数。
一项关键突破来自于OpenAI o1 和 DeepSeek r1 为代表的 搜索增强学习(Search-Augmented Learning)[^6]。其逻辑类似于AlphaGo的自我对弈:搜索过程所找到的更优答案轨迹,可以反过来作为高质量的训练数据,通过离线强化学习算法(Offline RL)来微调模型本身。这就形成了一个数据飞轮:搜索发现更优解,学习内化更优策略。
此阶段的贡献,是确立了奖励机制(Reward)在模型能力迭代中的位置,并推动了其精细化:
-
从结果奖励到过程奖励:早期的RLHF主要依赖对最终结果的偏好排序(Outcome-Supervised Reward Models, ORM)。后续发展的过程监督奖励(Process-Supervised Reward Models, PRM)则能对推理过程中的每一步进行打分。例如,在数学解题中,PRM会奖励每一个正确的推导步骤,而非仅看最终答案。这种细粒度的过程反馈,有助于提升模型学习复杂推理路径的可靠性。 -
从人类偏好到可验证事实:奖励信号的来源得到了扩展。在代码生成、数学计算、API调用等存在确定性事实的领域,可以引入可验证奖励(Verifiable Rewards)。例如,代码生成任务可以通过单元测试是否通过来提供一个客观、准确、可规模化的奖励信号。这种来自环境的确定性反馈,其效率和可靠性通常优于依赖主观标注的传统奖励模型。
至此,通过引入来自环境和过程的精确奖励信号,模型开始具备主动学习更优策略的能力,为实现能力内化提供了技术前提。
技术四:Agentic AI的出现与能力内化
这是当前正在发生的阶段。Agentic AI的目标,是将第二阶段的外部增强能力,通过第三阶段的后训练范式,最终内化(Internalize)为模型原生的能力。
Agentic AI的出现,也重新定义了智慧体的特征,它在传统的目标导向、反应性和执行能力之上,增加了关键的学习能力:通过经验不断改进自身的性能和策略。
这个转变的技术意义在于:AI的执行能力从AI Agent的外部工作流所"套壳"和"编排",转变为模型自身内化的、可自主学习和迭代的行为策略。模型学习的目标,也从"预测下一个词(Token)",转变成了"预测下一个能导向最终成功的行动(Action)"。
三、 Agentic AI 的议题
1. 定义:Agentic AI 与 AI Agent
判断一个系统是否是Agent,其自主性水平是一个关键考量。下图从"信息获取"和"任务执行"两个维度,对不同类型的系统进行了划分。工具不具备自主性,需要人类的直接指令;而Agent则表现为一种服务,能自主规划与执行,以达成用户设定的目标。

注:本文定义的AI Agent特指当前主流的、基于"Prompt工程+外部编排引擎"的软件系统,而非广义上的"自主智能体"。为避免混淆,本文将广义的"自主智能体"统称为Agent或智慧体。
一个具备执行能力的AI系统不一定是Agent。以代码助手Cursor为例,它提供了不同自主性水平的功能:
-
Ask:信息查询助手,回答问题。 -
Manual:代码修改助手,根据用户的具体指令修改代码。此模式可视为一个执行工具。 -
Agent:任务解决服务,用户仅提出顶层需求(如"重构此组件以提升性能"),由其自主完成设计、编码到测试的完整流程。
此例说明,Agent的特征是围绕目标进行自主决策与多步执行的能力,而非单一的指令响应能力。
其次,有必要对作为"软件产品"的AI Agent与作为"模型能力"的Agentic AI进行区分。
一个典型的AI Agent(外部编排系统)的工作流程如下,其规划逻辑位于模型之外,由外部代码驱动模型进行多轮交互来模拟思考过程。

而Agentic AI则将规划与执行能力内化为模型自身的参数,其行为是一次连贯的、由内在策略驱动的生成过程。

下表从四个维度对两者进行对比:
|
AI Agent (外部编排系统) | Agentic AI (能力内化模型) |
---|---|---|
能力来源 |
|
|
运行模式 | 多轮会话驱动
|
单次生成驱动
|
智能位置 | 模型之外
|
模型之内
|
开发焦点 |
|
|
可以认为,AI Agent是人设计的、由AI执行的工作流;而Agentic AI追求的是由AI自主学习、生成并执行的工作流。
Agentic AI的关键能力差异
Agentic AI的价值,并非仅是提升任务效率,而是解决了传统AI或AI Agent难以应对的、新的复杂度问题。当以下几种能力成为系统瓶颈时,其必要性便可能显现。
能力一:动态环境下的规划与推理能力这并非指按部就班的流程执行,而是在信息不完整、规则不明确的环境中进行动态决策的能力。
-
案例:银行信贷审批传统风控模型精于处理结构化的财务报表。但现实中的信贷决策充满不确定性:如何解读一份格式不规范的财务补充说明?如何评估一个缺少历史数据的新兴行业的信贷风险?当一项新的产业政策出台,如何判断其对特定企业现金流的影响?在这些场景下,Agentic AI或能综合利用其语言理解、知识关联和推理能力,形成一个接近于人类专家的动态判断过程。
能力二:知识的动态整合与应用能力这是根据具体问题,实时地、跨领域地整合信息并形成逻辑闭环的能力。
-
案例:企业跨境业务的法律合规一项新的跨境业务可能同时触及公司法、税法、行业监管和国际法等多个领域。传统的专家系统需要预先梳理所有规则组合。而Agentic AI能够根据具体的业务场景,动态地从不同法律知识源中抽取相关条款,并推理它们之间的相互作用,形成综合的合规性判断。
能力三:面向复杂环境的持续学习与适应能力这是系统在部署后,根据环境反馈持续优化自身行为模式的能力,尤其是在大规模、多样化的场景中。
-
案例:服务于多行业的大型客服供应商对于需要同时服务上百个不同行业(金融、零售、制造等)客户的专业服务商而言,其业务规则、沟通话术、处理流程千差万别且频繁变动。为每个客户维护一套独立的传统客服机器人成本较高。Agentic AI则可能为每个客户建立一个独立的、持续学习的"智能体实例",在统一的基础模型之上,适应并演化出高度定制化的服务能力。
单体智能与多智能体系统
近期,学术界与产业界对多智能体系统(Multi-Agent Systems)的讨论增多,例如Google的A2A协议[^9]和康奈尔大学的相关综述[^4],这使得部分观点认为"多智能体协作"是Agentic AI的标志。然而,这里需要辨析"组织形式"与"个体能力"的区别。
-
单体智能的内化是Agentic AI的前提,即首先需要让单个AI模型具备自主规划和执行复杂任务的能力。 -
多智能体的协作是Agentic AI发展到一定阶段后,可能出现的更高级的系统形态,而非其定义本身。
在单个智慧体的能力(即"单体智能")尚未成熟之前,过度强调多智能体协作,如同在基础构件质量未达标时讨论构建复杂系统。因此,当前阶段的任务之一,是构建能够独立完成复杂任务的、强大的专家型智慧体。
更进一步看,单体智能的边界也决定了协作的必要性。追求一个无所不能的"全知AI"在经济和技术上或许并不可行。一个更现实的路径可能是,由多个"高度内化的专家型智慧体",通过标准化的协作协议(如A2A)形成一个分布式系统。因此,强化单体智能与探索多智能体协作并非对立,而是同一系统发展的两个阶段:前者是基础,后者是结构。
2. 驱动力:范式转移的技术与市场动因
Agentic AI范式的出现,并非孤立的技术突进,而是由数据、技术、产品和市场四个层面的因素共同驱动的结果。
动因一:从通用文本到经验数据
4月,强化学习奠基人Richard Sutton和AlphaGo之父David Silver合著的论文《欢迎来到经验时代》[^10]中,从"经验学习"的角度阐述了这一转变的意义。他指出,在互联网文本数据趋于饱和后,驱动AI能力持续提升的引擎将是强化学习(在与环境的交互中学习)。基于LLM的Agentic AI,是实现这一愿景较为清晰的路径之一。

训练AI所需的资源,正从"通用文本数据"转向"与特定环境交互的经验数据"。
-
传统LLM时代:资源是语言知识,可以通过大规模爬取公开互联网数据获得。这是一个资本和算力密集型的竞争,数据的规模效应在一定程度上导致了少数厂商的主导地位。然而,一个显而易见的瓶颈是:高质量的公开文本数据正趋于枯竭。 -
Agentic AI时代:资源是经验数据,它无法通过静态爬取获得,必须通过与特定环境(如一个业务系统、一个仿真平台)的实际交互才能产生。你可以爬取全世界的法律文本,但无法预先收集到一位律师在处理具体案件时的完整决策与行动轨迹。
这种转变重新定义了战略价值。拥有一个能产生高质量交互数据的"环境"(无论是一个高保真仿真平台,还是一个拥有海量真实用户的业务场景),其价值可能不亚于拥有更多的GPU。
动因二:后训练方法论的成熟
以交互经验数据为核心的新范式之所以在当下成为可能,得益于一系列关键技术的成熟:
-
基础模型能力趋于稳定:单纯依靠扩大参数和数据规模的"规模法则"(Scaling Law)路线,其边际效益可能正在递减,业界需要寻找新的能力增长点。 -
强化学习后训练的有效性被证实:在特定任务上(如代码生成、数学推理),通过RL进行后训练的模型,已展现出超越通用基础模型的能力。RL自身的"规模法则"——即其性能随环境交互数据和计算量的增加而提升——正在被越来越多的研究证实。 -
可验证奖励成为加速器:在代码、数学、游戏等领域,能够提供清晰、客观、可规模化奖励信号的环境,极大地加速了强化学习的收敛进程。 -
后训练的经济可行性:相对于基础模型预训练,针对特定任务的强化学习后训练,其算力成本相对较低。随着模型推理成本的持续下降,进行大规模数据交互和迭代训练在经济上日益可行。
动因三:从外部编排到能力内化
从产品角度看,当前主流的AI Agent方案存在扩展性、可靠性与维护成本等方面的固有挑战,可能难以满足复杂业务场景的要求。随着训练流程的成熟和交互数据的积累,直接使用Agentic AI的效费比或将超越维护复杂的外部AI Agent系统。因此,将Agent能力"内化"是产品形态演进的一个可能方向。
在此演进路径中,现有的AI Agent系统扮演着重要的过渡角色。其在运行过程中产生的海量"任务拆解-工具调用-结果反馈"日志(包括成功、失败与修正的完整轨迹),恰好是训练下一代Agentic AI理想的、蕴含人类领域知识的高质量经验数据之一。这使得第一代系统的投入具备了双重价值:即时的业务自动化价值,以及长远的数据资产价值。
动因四:从模型垄断到生态开放
基础大模型的预训练,因其对算力、数据和资本的高度依赖,在可预见的未来或仍将由少数巨头主导。然而,Agentic AI并非旨在分割现有市场,而是通过提供高度专业化的解决方案,开辟了通用模型厂商难以全面覆盖的增量市场。未来的竞争焦点,可能正从"谁能训练最大的基础模型",转向"谁能为特定领域建立最高效、最可靠的数据-模型迭代闭环"。这为深耕垂直领域的、掌握高质量专有数据的参与者提供了结构性机遇。
3. 影响:交互、生态与产业的系统性变革
Agentic AI带来的影响可能是系统性的,它或将从基础的交互单元扩散至整个产业生态。我们可以从交互重构、生态演化和结构变迁三个层次来审视其潜在影响。
变革一:交互单元的重构
-
软件的再定义:从"使用工具"到"委托服务"
过去,软件是人类"使用"的工具,用户通过操作界面上的按钮和菜单来执行一项操作。未来,Agentic AI或可被视为人类"委托"的服务,用户通过交付目标来完成一项任务。从"采购一张机票"到"规划一次商务旅行",AI将可能自主完成所有必要的子任务,交互的重点从"过程控制"转向了"目标管理"。
-
协作的再定义:从"指挥-执行"到"伙伴-辅助"
随之而来的是人机关系的演化。随着AI自主性的提升,人与AI的关系可能从"指挥-执行"的工具模式,转变为"目标设定-方案生成"的伙伴模式。人类的价值将更多地体现在提出正确的问题、定义清晰的目标、进行创造性的构想以及对最终结果进行价值判断,而将繁琐的过程执行交由AI完成。
变革二:智能体生态的演化
-
系统设计的粒度:高内聚、低耦合的"智能微服务"
这个生态系统的构建原则,可类比于软件工程中"高内聚、低耦合"思想的体现。高内聚要求一个Agentic AI应内化其目标所需的所有紧密关联的功能和知识;低耦合则要求不同Agentic AI之间通过定义良好的接口进行通信。最终,这可能会催生一种分层的智能体网络(Agentic Mesh):底层是专注于具体应用的"执行层Agent",高层则是负责协调和调度多个底层Agent的"操作系统层Agent"。
-
生态位的分化:通用型 vs. 垂直型
-
Boosted.ai:金融研究领域,专精于市场分析、投资策略制定和风险评估,需理解金融市场规律和监管要求 -
Composabl:工业控制系统,专注于制造业的自动化控制和优化,需理解物理系统和工程约束 -
PathAI:医疗病理诊断,通过深度学习分析医学影像,辅助病理学家进行疾病诊断 -
Harvey AI:法律服务,专精于合同分析、法律研究和案例检索,需理解法律条文和司法实践 -
Sierra:专注客服领域,通过对话管理和问题解决能力,帮助企业提供智能客户服务 -
Cursor:软件开发助手,通过代码生成、调试和重构能力,提升开发者的编程效率 -
Perplexity:信息检索和研究助手,通过多源信息整合和推理能力,为用户提供综合性答案 -
跨行业AI代理 (Horizontal AI Agent) :提供跨行业的通用能力,代表性公司包括:
这类横向AI代理的特点是具备通用性和可移植性,能够快速适配不同行业的相似需求。
-
垂类AI代理 (Vertical AI Agent) :针对某个具体行业或垂直市场提供高度专业化的智能体,代表性公司包括:
这类垂直AI代理的优势在于领域专业性和合规性,它们往往需要处理高度敏感的数据,并遵循行业特定的法规要求。
当作为个体的"智能体"能力日渐成熟时,其组织形态也在同步演进,一个复杂的、分布式的智能系统可能正在浮现。
智能体生态系统:在通用人工智能(AGI)实现之前,一个由高度专业化的专家智慧体组成的时代或将先行到来。未来可能是一个由无数高度专业化的Agentic AI组成的庞大生态系统。它们各自精于特定领域(如法律、医疗、金融、设计),并通过标准化的接口相互协作,共同解决复杂的跨领域问题。这类似于微服务架构在软件工程领域的成功,只不过这里的"服务"单位,是拥有自主智能的Agent。
变革三:产业结构的变迁
在传统的模型厂商和应用商之间,一个由需求驱动的"模型微调与部署服务商"中间层可能正在兴起。其价值在于提供高附加值的垂直领域解决方案,而非仅是通用工具。
-
存在空间:中间商的生存空间,源于"复杂性"与"标准化"之间的张力。一方面,微调部署涉及数据清洗、算法选择、云端优化等复杂技术栈,中小企业应用商可能缺乏相关专业知识(Expertise),这创造了市场需求。另一方面,模型厂商(如Azure AI、Google Vertex AI)正不断将标准化工具垂直整合进其平台,这又在挤压中间层的生存空间。因此,中间商的定位更多是高附加值的垂类解决方案专家,而非通用工具提供商。
-
价值定位与技术壁垒:其业务可能是利基(Niche)且分层的:
其技术壁垒在于高效的分布式训练能力、深度的行业知识(领域知识与实践经验) 以及强大的数据隐私与安全技术。
-
强化微调即服务(Reinforcement Fine Tuning as a Service, RFTaaS) :正如OpenAI在2024年底发布会提出的概念,为应用商简化后训练流程,提供从数据预处理到模型部署的一站式服务。 -
部署优化服务:提供模型压缩、量化、硬件适配(如从GPU到边缘设备)等高技术门槛服务,确保模型在不同环境下的性能。 -
行业解决方案:为特定行业(如医疗、法律)提供包含数据合规处理、专用奖励模型库、完整数据闭环在内的端到端方案。 -
数据飞轮构建与运营:其技术壁垒之一在于,为特定领域构建和运营高效的"数据飞轮",即持续地从真实或仿真环境中收集高质量交互数据,用于模型迭代,并将模型提升的效益反馈给客户。 -
驱动与制约因素:这场博弈的变量包括:
-
上升动力(中间商的机遇) :数据隐私需求(促使企业寻求能在本地或私有云处理数据的中间商)、跨平台集成需求(如需要统一将模型部署到AWS/GCP/Azure等不同环境)、监管合规要求(特别是在金融、医疗等强监管行业)。这些是大型平台难以快速、灵活满足的。 -
下降约束(中间商的挑战) :模型厂商的向下整合(如OpenAI的fine-tuning API能满足简单微调需求)、开源工具的普及(如verl、LLaMA-Factory等开源框架降低了技术门槛)、客户的内化能力提升(大型企业逐步建立自己的AI团队)。
4. 战略:应用场景的选择框架
Agentic AI的构建涉及显著的资源投入,因此,场景选择成为一个关键的战略决策。其目的是识别那些通用模型无法有效解决、而专用Agent能够创造显著价值的应用场景。一个场景是否适合投入资源进行后训练,或可通过以下三个维度进行评估:
-
任务复杂度 (Task Complexity) :任务是否需要多步骤推理、与外部工具进行多次交互,或在多个可行解路径中进行权衡。简单的、单步即可完成的任务,通常不需要构建复杂的Agentic AI。 -
领域专业性 (Domain Specificity) :任务是否涉及深度的领域知识,例如特定行业的术语、规范、非公开数据和隐性知识。通用模型在这些领域往往表现不佳。 -
性能可度量性 (Performance Measurability) :任务的成功与否是否存在清晰、可量化的客观评价指标。这是设计有效的奖励函数、进行可靠评估和驱动模型迭代的基础。例如,代码生成的"单元测试通过率"或金融交易的"Alpha收益"。

高优先级场景具备以下特征:
-
高复杂度与高专业度:任务流程复杂,且依赖深度的领域知识,通用模型难以胜任。 -
高精确度要求与可验证性:任务成功与否有明确的、可量化的客观标准,这为强化学习提供了清晰的奖励信号。 -
高经济价值:自动化带来的效率提升或错误率降低能产生显著的商业回报,足以覆盖后训练成本。
典型适用场景包括:金融量化交易、辅助软件工程(代码生成与调试)、药物分子发现、工业自动化控制等。
应规避的场景:对于复杂度低、无明确客观评价标准、或价值密度低的任务(如通用内容摘要),短期使用标准的基础大模型或简单的外部编排(AI Agent)可能是更具成本效益的选择。
5. 实现:构建 Agentic AI 的技术要素
构建一个有效的Agentic AI系统是一项系统工程。其成功与否,取决于对四个技术要素的系统性设计与权衡。
要素一:环境的定义与抽象
环境(Environment)是智能体感知、决策和学习的载体。环境工程的目标,是以计算高效的方式为智能体提供一个反映真实世界复杂性、同时又可供其有效学习的交互对象。其设计涵盖表示、仿真和评估三个层面。
-
环境表示 (Representation):重点在于对状态空间进行有效抽象,在保留任务相关语义的同时过滤无关信息。Web环境的表示演进是一个典型范例:从完整的HTML DOM树,到以WebArena为代表的、基于可访问性树 (Accessibility Tree) 的语义节点抽象,再到Google DeepMind的WAX环境所采用的多模态融合表示(简化DOM + 截图 + 元数据)。这一趋势指向在保留必要信息的前提下,最大限度降低模型处理复杂度的方向。
-
环境仿真 (Simulation):由于真实世界交互成本高、风险大、速度慢,仿真成为训练不可或缺的一环。一个务实的工程选择是分层仿真策略,在仿真度与成本效率之间进行取舍:
-
逻辑层仿真:无UI的后端模拟器,专注于业务逻辑,成本低,可大规模并行,适用于智能体策略的早期训练。 -
高保真数字孪生:包含完整UI和后端的应用副本,仿真度高,适用于端到端的用户体验微调和测试。 -
沙盒化生产环境:在真实生产环境的隔离区中进行,成本最高,但为模型在真实世界中的表现提供了最终验证。
环境评估 (Evaluation):为规避智能体利用奖励函数漏洞的"奖励劫持"(Reward Hacking)行为,可能需要建立一个多层评估框架:
-
基于规则的断言:作为基础安全网,检查确定性的、不可逾越的规则(如单元测试通过、无危险命令执行)。 -
基于模型的评估:使用一个或多个奖励模型(RM)来模拟人类偏好,进行大规模自动化评估。 -
对抗性测试:由人类专家或"攻击性"智能体主动寻找评估体系的漏洞。 -
真实世界A/B测试:以真实业务指标作为最终裁决标准,并用其结果校准上述各层评估体系。
多模态的作用:值得强调的是,视觉等非文本模态信息的融入,对于Agentic AI并非锦上添花,而可能是突破的关键。尤其是在与GUI或物理世界交互时,多模态输入(如屏幕截图、摄像头画面)是实现对环境状态完整理解、以及将抽象动作"接地"(Grounding)到具体UI元素或物理对象上的前提。它解决了纯文本表示的歧义性问题,是构建鲁棒智能体的重要一环。
要素二:动作空间的设计
动作空间(Action Space)定义了智能体的能力边界,其设计的目的是提升动作的泛化能力与鲁棒性。其演进趋势表现为从环境耦合的低层级指令,向环境解耦的高层级抽象意图迁移。
-
第一代:低层级、物理性的动作:例如直接输出GUI操作的 (x, y)
坐标。这类动作与环境的UI布局、实现细节高度耦合,鲁棒性较差。 -
第二代:视觉与语义融合的动作:以Microsoft的GUI-Actor[^16]为代表,将动作解耦为"意图+目标",如 点击<ACTOR>
,并利用注意力机制在视觉输入中定位<ACTOR>
对应的"购物车图标"。这在一定程度上实现了与坐标的解耦。 -
第三代:抽象化、标准化的动作:这或许是实现跨环境泛化的理想形态。它追求定义一套标准化的语义动作集,智能体的逻辑仅负责输出这种抽象动作(例如,一个描述查询意图的JSON对象),再由一个与环境适配的"接地层"(Grounding Layer)负责将其编译或解释为具体环境下的可执行指令(如SQL查询或OS调用)。这种意图与执行分离的框架,是实现智能体跨环境泛化与复用的一个路径。
要素三:奖励函数的设计与验证
奖励函数(Reward Function)是塑造智能体行为的机制。其设计的挑战在于稀疏奖励(Sparse Reward)和目标错位(Objective Mismatch)。前者指在长序列任务中,只有最终结果才有奖励信号,导致学习困难;后者指设计的奖励无法真正代表期望的目标,可能导致"奖励劫持"。
为应对这些挑战,奖励工程可以采用组合式策略:
-
过程监督与稠密奖励:对推理或执行过程中的关键步骤给予奖励,将一个稀疏的最终奖励信号,转化为一系列稠密的中间奖励信号,从而降低学习难度。但奖励归因也是一个困难的问题。 -
偏好学习:当奖励难以量化时,可采用类似RLHF的方式,通过学习人类对不同结果的偏好排序来构建奖励模型。 -
规则奖励: 引入领域知识或人类先验,制定明确的规则或启发式策略来直接引导或约束模型的行为。 -
结果监督与可验证奖励:在结果可以被程序化验证的领域(如代码生成、数学计算),利用单元测试、执行结果等提供确定性的奖励信号,其成本低、一致性高。
最后,任何奖励函数设计的有效性,都须在多层评估框架下得到持续验证和迭代。
要素四:交互数据的获取与管理
高质量的交互轨迹(Trajectory)是训练Agentic AI的"燃料"。数据策略的重点在于如何以可控的成本,构建一个多样化、高质量的**数据资产组合 (Data Portfolio)**,并解决其"冷启动"难题。
-
数据来源:
-
专家示范数据:质量最高,成本也最高,可能是解决专业领域冷启动问题的关键,可用于初始化一个基础版本的智能体。 -
仿真合成数据:通过构建高保真仿真环境,可以大规模、低成本地生成交互数据。仿真环境降低了对初始数据质量的要求,使得智能体可以通过大量的"经验数据"而非"完美数据"进行学习。 -
模型探索数据:通过智能体在安全环境中的自我探索产生,是实现能力自我超越和持续进化的数据来源。 -
真实用户数据:最真实,但成本高、有噪声,通常在模型具备一定能力后,用于在线微调和迭代。
数据质量管理:获取数据只是第一步,后续的数据筛选与管理同样重要。由于离线强化学习对数据质量高度敏感,有必要建立一套机制来识别和筛选出包含"成功"或"有价值的失败"的轨迹。简单地堆积海量低质量交互日志,反而可能损害模型性能。对失败案例进行归因分析,更能指导后续的训练和数据收集。
结语
我们或正处在一个从"AI作为工具"到"AI作为服务"的范式转移中。这一转变的要点,是通过以强化学习为基础的后训练,将规划与执行能力内化为模型自身的参数。这个过程不仅可能重塑软件的形态与人机协作的模式,也为掌握高质量交互数据的领域参与者,在通用模型之外开辟了新的价值空间。未来,构建高效、可靠的数据与模型迭代闭环,或将成为定义下一代智能系统的关键工作。
参考文献
[1] practices-for-governing-agentic-ai-systems.pdf
[2] 探索agentic Ai:理解人工智能的第三波及其对未来的影响 | Rifx.Online - AI API Aggregation Platform
[3] A Survey on Complex Reasoning of Large Language Models through the Lens of Self-Evolution
[4] AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges
[5] The Model is the Product | Vintage Data
[6] LLM Post-Training: A Deep Dive into Reasoning Large Language Models
[7] https://www.alexirpan.com/2024/07/08/tragedies-of-reality.html
[8] Reinforcement Fine-Tuning—12 Days of OpenAI: Day 2 中文全文
[9] ai-boost/awesome-a2a: Agent2Agent (A2A) – awesome A2A agents, tools, servers & clients, all in one place.
[10] The Era of Experience Paper.pdf
[11] 2025-Top-Strategic-Technology-Trends.pdf
[12] 黄仁勋GTC演讲万字拆解:芯片性能狂飙900倍,机器人开源革命开启澎湃号·湃客澎湃新闻-The Paper
[13] 进一步理解RFT范式 2025.3 - 知乎
[14] volcengine/verl: verl: Volcano Engine Reinforcement Learning for LLMs
[15] hiyouga/LLaMA-Factory: Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024)
[16] [2506.03143] GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents
[17] https://trends.google.com/trends/explore?cat=785&date=2006-01-01%202025-06-09&q=AI&hl=zh-CN