1月23日,OpenAI推出了一项全新功能——Operator,这是一款能够自主使用浏览器完成任务的AI代理工具,现已向美国的Pro用户开放。(感觉我之前买的 Pro 值回票价!)
Operator
01
什么是Operator?
Operator是一种基于新模型Computer-Using Agent (CUA) 的研究预览版工具。它结合了GPT-4o的视觉能力和通过强化学习优化的高级推理能力,能够模拟人类操作浏览器的行为,包括点击、滚动和输入文本。
比如希望预订罗马的高评分一日游。通过Operator,你只需描述需求,它就能完成从搜索到选定「TripAdvisor推荐」最佳行程的全过程。这种能力的核心是Operator可以“看”网页并进行交互,而无需借助API集成。
Operator正在与多个知名公司展开合作,包括DoorDash、Uber、Instacart等,以优化任务执行效率。此外,它还探索在公共领域中的应用,例如协助居民更便捷地注册城市服务。
Operator主要功能
-
任务自动化:适合处理重复性的浏览器任务,如填写表单、订购商品甚至制作趣味表情包。 -
多任务管理:可以同时运行多个任务,例如在Etsy上定制马克杯的同时预订露营地。 -
自定义工作流:用户可根据特定网站设置个性化指令,比如在预订航班时优先选择特定航空公司。 -
任务接管与协作:Operator会在需要输入登录或支付信息时请求用户接管,确保操作安全且直观。
CUA
02
什么是CUA?
作为Operator的核心技术,**Computer-Using Agent (CUA)**,代表了AI技术的新高度,能够像人类一样与图形用户界面(GUI)互动,为未来的数字世界打开了新篇章。而 Operator 则是CUA技术的首个落地应用。
CUA(Computer-Using Agent) 是一个通用界面模型,结合了GPT-4o的视觉能力和强化学习训练的高级推理能力,能够通过观察和操作屏幕上的按钮、菜单和文本框等元素,与图形用户界面进行交互。这种能力不需要特定的API支持,使CUA可以直接使用人类日常使用的数字工具和网页。
CUA的关键能力包括:
-
视觉感知:通过屏幕截图理解当前的界面状态。 -
推理规划:通过“链式思维”生成多步骤任务计划,动态调整操作步骤。 -
执行动作:通过虚拟鼠标和键盘完成点击、滚动和输入等操作。
这使CUA能够在多样化的数字环境中执行复杂任务,例如填写表单、处理网页导航等,极大地扩展了AI的应用场景。
技术亮点
CUA的背后凝聚了多模态理解与推理领域的多年研究成果:
-
广泛任务能力:CUA能够在不同任务场景中切换,如处理网页表单或进行复杂的跨平台操作。 -
智能纠错与自适应:在遇到问题时,CUA能够进行动态调整,优化任务完成路径。 -
业界领先的性能指标:CUA在多个基准测试中表现出色: -
在OSWorld中,CUA的完整计算任务成功率达到38.1%; -
在WebArena中达到58.1%,在WebVoyager中高达87%。
评估与性能表现
CUA在多个业界基准测试中刷新了记录,展现了其广泛适应能力:
-
浏览器任务: -
在 WebArena(仿真真实网页环境)中,CUA成功率达到 **58.1%**。 -
在 WebVoyager(真实网站测试,如Amazon、GitHub等)中,成功率高达 **87%**。 -
操作系统任务: -
在 OSWorld 中(评估AI对操作系统的控制能力,如Windows和Ubuntu),CUA达到了 38.1% 的成功率,接近人类的 **72.4%**。下面??是和同行的对比。(可以比不过人类,但是不能比不过同行。)
CUA能够通过更多的操作步骤实现性能提升,但与人类的表现仍有一定差距,尤其是在更复杂的任务中。
Have a
Try!
03
试用
我的pro账号终于排上了用场!!!
我尝试着让 AI 帮忙安排一个去日计划~

先大概说个计划

Operator 开始帮我上网搜索做攻略

帮我订酒店

和我互动询问我的意见

帮我订机票

需要人工验证的时候就把我叫过去Take Control。
这个时候想起我了。。
