划重点
-
OpenAI凌晨举行直播活动,发布AI智能体Operator。Operator目前以“研究预览”形式向美国的ChatGPT Pro用户开放。
-
Operator将逐步推广到ChatGPT的Plus、Team和Enterprise用户,并逐步向其他国家用户开放。 -
Operator的背后的驱动力是新模型CUA,它融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。 -
Operator可能存有风险或滥用情况,OpenAI为此还推出了“接管模式”,要求用户手动输入支付详情或登录信息。
1月24日消息,OpenAI在北京时间凌晨举行直播活动,发布了市场期待已久的AI智能体Operator(意为操作员),它能够代理用户执行基于网页的操作,像人类一样点击、滚动和输入文字,完成诸如购买杂货、预订餐厅以及提交费用报告等任务。
在此之前,包括微软、Salesforce和Workday等商业软件公司纷纷推出了各自的智能体。
谷歌和人工智能初创公司Anthropic近期也推出了类似的智能体工具,它们与OpenAI的Operator相似,能够浏览网页并与菜单和按钮进行交互。
但Operator的特点是,与其他各家Agent相比,它会通过CUA的系统进行复杂的思维链反思和步骤规划。这可以大大提高其完成任务的精度和复杂性。在不依靠对具体任务进行精调的情况下,Operator就能泛化的完成多种复杂任务。
虽然在直播的实机演示中,OpenAI仅仅展示了网购、订餐等基础操作。但在后续的部分用户测试中,它甚至可以完成在Arxiv上进行论文分类搜索,阅读多篇论文并完成综述整理的复杂工作。
而且这个工作肯定是不太可能被纳入传统精调过的“意图理解”框架内的。
另外,CUA本身在网页控制和系统控制方面也达到了SOTA。虽然仍和人类有相当差距,但在演示中整体行动相当流畅。
目前,OpenAI的“Operator”智能体以“研究预览”(research preview)的形式向美国的ChatGPT Pro用户开放。这一阶段表明该产品仍处于发展初期,可能存在局限性,在演进过程中可能会出现错误。ChatGPT Pro的订阅费用为每月200美元,该服务专为需要高级AI功能的专业用户设计,提供无限制访问包括GPT-4o和o1在内的高级模型。
OpenAI表示,计划将Operator功能逐步推广到ChatGPT的Plus、Team和Enterprise用户。在直播活动中,OpenAI首席执行官山姆·奥特曼(Sam Altman)提到,Operator功能将很快在其他国家推出,但欧洲地区可能需要更长时间。
OpenAI首席运营官布拉德·莱特卡普(Brad Lightcap)表示,Operator能够在家庭和工作中节省时间,尤其是在自动化常见任务方面存在“巨大潜力”。”他指出:“Operator从根本上改变了人们与计算机的交互方式。这是一个艰巨的技术挑战,其价值取决于它的实用性。”
此外,OpenAI正在与包括Instacart、Uber、eBay、Priceline、OpenTable和Etsy在内的科技公司合作,以便让用户在Operator主页上更便捷地访问这些公司的网页。
使用新模型CUA
Operator背后的驱动力是OpenAI的新模型“计算机使用智能体”(Computer-Using Agent,简称CUA)。
该模型融合了GPT-4o的视觉能力与通过强化学习实现的高级推理能力。CUA经过训练,能够像人类一样与图形用户界面(GUI)交互,包括屏幕上的按钮、菜单和文本框。这种能力使其能够灵活地执行数字任务,无需依赖特定操作系统或网页的API。
CUA的开发基于多年在多模态理解和推理领域的基础研究。它结合了高级的图形用户界面感知能力与结构化的问题解决能力,能够将任务分解为多步骤计划,并在遇到挑战时自我调整和纠正。
这一能力标志着人工智能发展的新阶段,使模型能够使用人类日常依赖的工具,并为一系列新应用打开了大门。
尽管CUA仍处于早期阶段且存在局限性,但它已经在多个基准测试中取得了新的最高水平:在OSWorld的完整计算机使用任务中成功率为38.1%,在WebArena中为58.1%,在WebVoyager的网页任务中为87%。
这些结果表明,CUA能够在多样化的环境中使用单一通用动作空间(a single general action space)进行操作。

CUA的工作原理

局限性与风险
