研究人员开发出了一个能像人类一样使用电脑的AI系统!
这个名为Agent S的系统,通过将复杂的桌面任务分解成易于管理的小步骤,并记住有效的操作方法,成功实现了在不同系统上处理各种桌面任务的能力。这项突破性研究为AI自动化复杂计算机任务开辟了新天地。
Agent S:AI界的"电脑高手"
Agent S采用了一种名为"经验增强分层规划"的方法,让它能够更好地处理各种图形用户界面(GUI)任务。这种方法主要包含三个关键组件:
-
管理器模块:负责将复杂任务分解成子任务,利用网络知识和叙事记忆来制定整体计划。
-
工作者模块:执行具体的子任务,依靠情景记忆和轨迹反思来完成操作。
-
自我评估器:将经验总结为文本形式的奖励,并更新叙事和情景记忆。
这种结构使Agent S能够像人类一样,逐步学习、积累经验,并不断提高自己的操作技能。
为什么Agent S如此与众不同?
传统的AI系统在处理复杂计算机任务时面临三大挑战:
-
获取各种应用程序的专门知识
-
规划长期任务
-
应对动态、非统一的界面
Agent S通过其独特的设计巧妙地解决了这些问题。它不仅能够理解任务,还能制定合理的执行计划,并在动态变化的界面中灵活应对。
Agent-Computer Interface:AI与计算机的"神经接口"
研究团队还开发了一个称为Agent-Computer Interface(ACI)的抽象层,进一步提升了Agent S的性能:
-
双输入策略:结合视觉输入和图像增强的可访问性树,既能理解环境变化,又能精确定位界面元素。
-
有界动作空间:定义了一组基于语言的原语操作,有利于多模态大语言模型(MLLM)进行推理。
-
适当的环境转换:生成合适时间分辨率的环境反馈,便于观察即时结果。
这些创新使Agent S能够更好地"理解"和"操作"计算机界面,就像一个熟练的人类用户一样。
惊人的实验结果
研究团队在多个benchmark上测试了Agent S的性能,结果令人振奋:
-
在OSWorld基准测试中,Agent S达到了20.58%的成功率,相比基线方法提升了83.6%。
-
在五个计算机任务类别中,Agent S都表现出了持续的改进。
-
在WindowsAgentArena测试中,即使没有专门适应,Agent S也取得了18.2%的成功率,比基线方法提高了36.8%。
Agent S 不仅能够执行预定义的任务,还能通过持续学习来适应新的任务和环境。这种能力对于提高办公效率、自动化测试、以及开发更智能的数字助手都具有重要意义。