OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

1月23日,OpenAI推出了一项全新功能——Operator,这是一款能够自主使用浏览器完成任务的AI代理工具,现已向美国的Pro用户开放。(感觉我之前买的 Pro 值回票价!)

Operator

01

什么是Operator?

Operator是一种基于新模型Computer-Using Agent (CUA) 的研究预览版工具。它结合了GPT-4o的视觉能力和通过强化学习优化的高级推理能力,能够模拟人类操作浏览器的行为,包括点击、滚动和输入文本。

比如希望预订罗马的高评分一日游。通过Operator,你只需描述需求,它就能完成从搜索到选定「TripAdvisor推荐」最佳行程的全过程。这种能力的核心是Operator可以“看”网页并进行交互,而无需借助API集成。OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

Operator正在与多个知名公司展开合作,包括DoorDash、Uber、Instacart等,以优化任务执行效率。此外,它还探索在公共领域中的应用,例如协助居民更便捷地注册城市服务。

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

Operator主要功能

  1. 任务自动化:适合处理重复性的浏览器任务,如填写表单、订购商品甚至制作趣味表情包。
  2. 多任务管理:可以同时运行多个任务,例如在Etsy上定制马克杯的同时预订露营地。
  3. 自定义工作流:用户可根据特定网站设置个性化指令,比如在预订航班时优先选择特定航空公司。
  4. 任务接管与协作:Operator会在需要输入登录或支付信息时请求用户接管,确保操作安全且直观。

CUA

02

什么是CUA?

作为Operator的核心技术,**Computer-Using Agent (CUA)**,代表了AI技术的新高度,能够像人类一样与图形用户界面(GUI)互动,为未来的数字世界打开了新篇章。而 Operator 则是CUA技术的首个落地应用。

CUA(Computer-Using Agent) 是一个通用界面模型,结合了GPT-4o的视觉能力和强化学习训练的高级推理能力,能够通过观察和操作屏幕上的按钮、菜单和文本框等元素,与图形用户界面进行交互。这种能力不需要特定的API支持,使CUA可以直接使用人类日常使用的数字工具和网页。OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

CUA的关键能力包括:

  1. 视觉感知:通过屏幕截图理解当前的界面状态。
  2. 推理规划:通过“链式思维”生成多步骤任务计划,动态调整操作步骤。
  3. 执行动作:通过虚拟鼠标和键盘完成点击、滚动和输入等操作。

这使CUA能够在多样化的数字环境中执行复杂任务,例如填写表单、处理网页导航等,极大地扩展了AI的应用场景。

技术亮点

CUA的背后凝聚了多模态理解与推理领域的多年研究成果:

  • 广泛任务能力:CUA能够在不同任务场景中切换,如处理网页表单或进行复杂的跨平台操作。
  • 智能纠错与自适应:在遇到问题时,CUA能够进行动态调整,优化任务完成路径。
  • 业界领先的性能指标:CUA在多个基准测试中表现出色:
    • OSWorld中,CUA的完整计算任务成功率达到38.1%;
    • WebArena中达到58.1%,在WebVoyager中高达87%。

评估与性能表现

CUA在多个业界基准测试中刷新了记录,展现了其广泛适应能力:

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

  • 浏览器任务
    • 在 WebArena(仿真真实网页环境)中,CUA成功率达到 **58.1%**。
    • 在 WebVoyager(真实网站测试,如Amazon、GitHub等)中,成功率高达 **87%**。
  • 操作系统任务
    • 在 OSWorld 中(评估AI对操作系统的控制能力,如Windows和Ubuntu),CUA达到了 38.1% 的成功率,接近人类的 **72.4%**。下面??是和同行的对比。(可以比不过人类,但是不能比不过同行。)OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

CUA能够通过更多的操作步骤实现性能提升,但与人类的表现仍有一定差距,尤其是在更复杂的任务中。

Have a

 Try!

03

试用

我的pro账号终于排上了用场!!!

我尝试着让 AI 帮忙安排一个去日计划~

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

先大概说个计划

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

Operator 开始帮我上网搜索做攻略

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

帮我订酒店

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

和我互动询问我的意见

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

帮我订机票

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

需要人工验证的时候就把我叫过去Take Control。

这个时候想起我了。。

OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务

版权声明:charles 发表于 2025年2月9日 pm2:34。
转载请注明:OpenAI发布新功能:Operator和CUA,让AI代劳你的网页任务 | AI工具大全&导航

相关文章