突发!OpenAI 刚刚发布代理Operator:AI进入Level 3,但只有美国Pro用户可以试用

AI资讯 1个月前 charles
1.5K 0

 

OpenAI 刚刚发布了名为 Operator 的研究预览版代理,它能够像人类一样浏览网页,执行各种在线任务。这款工具标志着AI 从被动工具向主动参与者的转变,预示着更智能、更便捷的数字生活方式的到来。目前,Operator 尚处于研究预览阶段,仅向美国地区的 Pro 用户开放

突发!OpenAI 刚刚发布代理Operator:AI进入Level 3,但只有美国Pro用户可以试用
突发!OpenAI 刚刚发布代理Operator:AI进入Level 3,但只有美国Pro用户可以试用

Operator 的工作原理

Operator 的核心驱动力是一个名为 计算机使用代理 (Computer-Using Agent, CUA) 的新型模型。CUA 结合了 GPT-4o 的视觉能力和通过强化学习获得的先进推理能力,使其能够与图形用户界面 (GUI) 进行交互。这意味着 Operator 可以像人类一样“看到”(通过屏幕截图)和“互动”(使用鼠标和键盘的所有操作)浏览器界面上的按钮、菜单和文本框(这个原理基本上和字节联合清华推出代理差不多,感兴趣的可以看我昨天写的这篇文章字节清华开源力作!UI-TARS原生AI智能体,人人都能拥有“智能助手”)

与以往需要定制 API 集成的 AI 工具不同,Operator 直接利用用户每天使用的网页界面,无需复杂的后台对接,极大地扩展了 AI 的应用场景。它能够处理各种重复性的浏览器任务,例如填写表格、订购食品杂货,甚至制作表情包

更令人印象深刻的是,Operator 具备一定的 自我纠错能力。当遇到挑战或犯错时,它可以利用推理能力进行自我调整。如果遇到无法解决的问题,Operator 会将控制权交还给用户,实现人机协作的流畅体验

虽然 CUA 模型仍处于早期阶段,存在一些局限性,但在 WebArena 和 WebVoyager 这两个关键的浏览器使用基准测试中,它已经取得了最新的领先水平

如何使用 Operator

用户只需简单描述想要完成的任务,Operator 即可自动处理后续步骤。用户可以随时接管远程浏览器的控制权。考虑到安全性和隐私性,Operator 被训练为在需要登录、输入支付信息或解决 CAPTCHA 验证码等任务时,主动请求用户接管

突发!OpenAI 刚刚发布代理Operator:AI进入Level 3,但只有美国Pro用户可以试用

Operator 还支持用户个性化工作流程。用户可以添加自定义指令,针对所有网站或特定网站设置偏好,例如在 Booking.com 上设置航空公司偏好。用户可以将常用提示保存到主页,以便快速访问,例如在 Instacart 上重复订购食品杂货

与浏览器多标签页功能类似,用户可以通过创建新的对话,让 Operator 同时运行多个任务,例如在 Etsy 上订购个性化珐琅杯,同时在 Hipcamp 上预订露营地

突发!OpenAI 刚刚发布代理Operator:AI进入Level 3,但只有美国Pro用户可以试用

生态系统与用户

Operator 的发布标志着 AI 从被动工具转变为数字生态系统中的积极参与者。它不仅可以简化用户任务,还将为希望提供创新客户体验和提高转化率的企业带来代理的优势

OpenAI 正在与 DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uber 等公司合作,确保 Operator 能够满足真实世界的需求,并尊重既有规范。除了商业合作,OpenAI 还看到了在公共部门应用中提高效率和可访问性的巨大潜力。他们正与斯托克顿市等组织合作,简化市民注册城市服务和计划的流程。

OpenAI 通过初期有限地向部分用户发布 Operator,旨在快速学习并根据真实世界的反馈改进其功能,在创新与信任和安全之间取得平衡。这种协作方式有助于确保 Operator 为用户、创作者、企业和公共部门组织带来有意义的价值

安全与隐私

确保 Operator 的安全使用是 OpenAI 的首要任务。他们为此设计了三层安全保障措施,以防止滥用并确保用户始终处于控制之中:

用户控制优先: Operator 被训练为确保用户始终处于控制之中,并在关键时刻请求用户输入。
接管模式: Operator 在用户需要在浏览器中输入敏感信息(如登录凭据或支付信息)时,会请求用户接管。在接管模式下,Operator 不会收集或截屏用户输入的信息。
用户确认: 在完成任何重要操作(例如提交订单或发送电子邮件)之前,Operator 应请求用户批准。
任务限制: Operator 被训练为拒绝某些敏感任务,例如银行交易或需要高风险决策的任务(例如决定职位申请)。
监视模式: 在特别敏感的网站(例如电子邮件或金融服务网站)上,Operator 需要用户密切监督其操作,以便用户直接发现任何潜在错误。

数据隐私管理: OpenAI 简化了 Operator 的数据隐私管理
训练退出: 在 ChatGPT 设置中关闭“改进所有人的模型”意味着 Operator 中的数据也不会用于训练 OpenAI 的模型。
透明的数据管理: 用户可以在 Operator 设置的“隐私”部分,一键删除所有浏览数据并退出所有网站。过去的 Operator 对话也可以一键删除。

抵御恶意网站: OpenAI 构建了防御机制,以防止恶意网站通过隐藏提示、恶意代码或网络钓鱼企图误导 Operator:
谨慎导航: Operator 被设计为检测和忽略提示注入。
监控: 专门的“监控模型”会监视可疑行为,并在出现异常情况时暂停任务。
检测管道: 自动化和人工审核流程不断识别新的威胁并快速更新安全措施。

OpenAI 意识到不良行为者可能会试图滥用这项技术。因此,Operator 被设计为拒绝有害请求并阻止不允许的内容。他们的审核系统可以发出警告,甚至对重复违规行为撤销访问权限,并且他们集成了额外的审核流程来检测和处理滥用行为。OpenAI 还提供了关于如何与 Operator 交互以遵守其使用政策的指南。

尽管 Operator 在设计时考虑了这些安全措施,但没有系统是完美无缺的,这仍然是一个研究预览版。OpenAI 致力于通过真实世界的反馈和严格的测试不断改进。

局限性

Operator 目前仍处于早期研究预览阶段。虽然它已经能够处理各种任务,但仍在学习和进化,并且可能会犯错。例如,它目前在处理复杂界面(如创建幻灯片或管理日历)时遇到挑战。早期的用户反馈将在提高其准确性、可靠性和安全性方面发挥至关重要的作用,帮助 OpenAI 为所有人改进 Operator

相关文章