AI Agent为何难以落地

AI资讯 7个月前 charles

14.1K 0 25

当我们谈论基于大型语言模型（LLM）的AI Agent时，总会感到一丝兴奋，仿佛一个全能的数字助手即将降临。但很快，这股兴奋就会被现实的骨感所取代。为什么这些看似强大的Agent，在实际任务中却显得如此笨拙，难以真正派上用场呢？

我的看法是，我们可以把完成一项任务所需的能力，大致拆分成几个层面，就像剥洋葱一样：

能力的层次

知识层： 这是最基础的。比如你要做生物实验，得先懂生物学，对吧？这是宏观的背景知识，是“知道”的部分。
经验层： 光知道还不行，还得会“做”。这里指的不是书本上的理论，而是可意会不可言传的“技巧”，在实践中偶然发现的“窍门”，或对未知时的“大胆猜想”。这是“巧思”的部分。
动作层： 这是最通用的“身体”能力。比如“动动手脚”，或者“开口说话”。这是“通用执行”的部分。
技艺层： 比“动作”更进一步，它带有强烈的专业属性。比如一个外科医生，他的“手稳”就属于技艺层。这是“专业执行”的部分。

简单来说，知识和经验是“想”的层面，而动作和技艺则是“做”的层面。 想法和行动，两者虽紧密相连，却又泾渭分明。

AI Agent的“短板”

现在，我们把AI Agent套进去看看：

知识层，那不就是LLM大模型本身吗？ 它能知天下事，博古通今。
经验层呢？ AI Agent用的是知识库，加上它有限的“任务记忆”。但这些更像是“笔记”，而非真正融入血液的经验。
动作层，那便是通用的函数调用（Function Calling）能力。 告诉它一个函数名，它就能去调用。
技艺层呢？ 则是它如何精妙地使用这些函数，比如如何调整参数，如何步步为营。

问题就出在这里了：经验层和技艺层，能否仅仅通过约束或提炼知识层和动作层来获得？ 换句话说，AI Agent的“后者”（经验和技艺）真的是“前者”（知识和动作）的子集吗？

人类的厉害之处在于，我们的经验会慢慢沉淀为知识，而那些炉火纯青的技艺，更是我们赖以生存的“独门绝活”。

但AI Agent呢？它似乎只能完成那些“经验”和“技艺”需求与“知识”和“动作”本身能力相差不大的任务。也就是说，它能做的，基本都是LLM本身就“会”的那些事儿。因为它学到的那些“经验”（存在知识库里），那些“技艺”（体现在函数调用上），似乎无法真正地“沉积”下来，形成一种内在的、动态的、可持续的学习机制。

我们现实世界中，绝大多数有用的任务，都包含了大量的领域专有知识和难以量化的实践经验。这就像让一个百科全书式的学者去当一个经验丰富的手术医生，光有知识是不够的。这也就解释了为什么现在的AI Agent，多半只能在一些相对“通用”的场景下小试牛刀。