如果说10天前的ChatGPT Tasks是OpenAI在AI Agent领域的一个试探,那么现在的Operator则是实打实的拉开了2025年AI Agent大战的帷幕。
北美时间1月23日,OpenAI官宣Operator Agent正式发布。文末附Operator直播发布视频完整版。

虽然大约一周前这个名为“Operator” AI Agent的信息就开始在网上发酵,对此有一定的心理预期,但真正看到它的亮相,还是令人眼前一亮。
按照OpenAI此前提出的从AI到AGI的五阶段,以ChatGPT为首的传统AI工具属于第一阶段,是“基础AI(Emerging AGI)”;以已发布的o1
和即将发布的o3
为首的推理模型属于第二阶段的“推理者(Reasoners)”;那么,今天发布的Operator则标志着AI的发展扎扎实实的进入了第三阶段:智能体(Agents)。

你有没有觉得,以往的AI更像是一个“工具”: 比如ChatGPT、Kimi、DeepSeek等,需要你给出明确的指令才能执行特定任务,“写一篇文章”、“画一幅画”、“解一道题”。
而今天发布的Operator则更像是一个真正意义上的“助手”: 它已经具备了一定的自主性和决策能力,可以理解你的模糊意图(理解-推理),并将任务分解成多个步骤(规划),自主地在浏览器中执行操作(执行-工具调用),最终完成任务。这本质上是一种从“被动处理信息”到“主动完成任务”的进化。
其实10天前发布的ChatGPT Tasks就已有一点这方面的雏形,比如能主动执行定时任务,但不多。真正的拐点还得是今天的Operator。
比如你只需要告诉它,“帮我预定这家餐厅今晚7点的位置”。

Operator会自行打开浏览器,搜索该餐厅,选择,然后确定可预约的时间。

如果搜索后发现你选定的时间已经不可选了,Operator会主动提醒你。到最终确定预定前,会再次跟你核实,就像下面这样。

除了预定餐厅,Operator还能帮你买菜。你要做的只需要告诉它你想买哪些菜,支持手写。这里当然是用到了AI模型的视觉能力。

Operator能自动打开浏览器,进入Instacart(美国的叮咚买菜),选定相应的菜品,加入购物车。这一切操作当然都是由AI自动完成的。

在真正下单前,你可以随意修改购物车,直接用自然语言告诉Operator就可以。

如果遇到问题,比如你还没有绑定付款方式,Operator会提醒你,直到下单成功。

当然,Operator可以玩的案例还很多,比如点外卖,订票等等。

除了前面说的“主动工作”,我还发现了其他几个Operator“炸裂”的亮点。
直接操作浏览器,无需通过API实现,这是Operator最核心、最具颠覆性的特点。要知道,不是所有的网站和应用都开放API,即使有,功能也往往受限。
Operator实现“操作浏览器”靠的是一个名为CUA(Computer-Using Agent)的全新模型。CUA基于GPT-4o
专门训练,继承了4o的视觉能力,能够和图形用户界面(GUI)直接交互。大白话说,就是Operator利用视觉能力通过“查看”屏幕截图来“理解”当前页面的内容,然后模拟鼠标和键盘操作和浏览器进行“互动”。
这样的好处是不言而喻的,通用性强,不需要特定API的支持,也不需要为每个网站和应用单独适配API。

另外一点,Operator强调人机协作。Operator不是一个完全自主、不可控的黑盒,从上面的截图也可以看出,它在执行任务时会主动和你确认,尤其是重要操作,比如确认预定、付款。
划重点,这其中体现了一个非常非常重要的设计理念:Human in the loop(HITL)。HITL通常用于AI系统中,指的就是当AI在执行任务时,人类必须保持在场,参与、监督,以确保AI系统的安全性和可靠性。大白话,AI在干活,你在把关。
说了这么多Operator的介绍,但不得不承认,现在的Operator,还太弱!
在OpenAI的演示中,有一个词被反复提到,那就是:research preview。OpenAI强调Operator还处于研究预览阶段,其实就是给用户打个预防针:别抱太高预期,毕竟是研究阶段的产品,要什么自行车!

而不出意外的,Operator在演示中,也小小的“翻车”了2次。
比如,已经确定的可选时间,在接收到“立即执行”指令后,Operator却又表示,之前的可选时间其实不存在。

再比如尝试访问StubHub网站时,Operator遇到了重定向的问题。这下,连Sam Altman都是一脸懵逼。

其实,透过OpenAI的演示细想,Operator还存在挺多“问题”,比如只支持浏览器,高度依赖GUI界面,响应速度慢(毕竟要先理解页面内容,再执行操作)等等。

最后,Operator功能目前仅对每月200美元的ChatGPT Pro用户开放体验。其他用户的使用权限将逐步开放。和Sora一样,Operator也是以独立产品的形式推出的,链接是:operator.chatgpt.com