一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

AI资讯 4小时前 charles
285 0

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

晓静、博阳

编辑萌萌

Agent今年AI最大共识OpenAI自然不能掉队

北京时间2025年7月18凌晨1Sam Altman和四位OpenAI 研究员在直播中正式发布了ChatGPT Agent——一款通用型AIAgent

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

前有Manus、LovartFlowithChatGPT Agent呈现功能场景并不特别惊艳但它发布的意义要超越功能本身。

ChatGPT Agent的革命性在于其独特的技术路径:它可以主动从工具箱中选择代理技能,使用自己的计算机完成任务,用户可以实时观察AI在虚拟环境中的工作过程。

种交互界面虽与Manus等产品相似,但底层原理却有着本质差异。Manus调用多个底层模型,类似于“外部缝合”,而ChatGPT Agent,是将Agent能力内化于模型,我们已经看到了端到端通用Agent的雏形。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

Manus的设计实质上是通过调用多个底层模型实现"外部缝合"。相比之下,ChatGPT Agent是将Agent能力内化于模型本身。

根据OpenAI介绍,为了开发ChatGPT Agent他们Operator和Deep Research团队合并为一个统一的团队这个新团队由20至35人组成。

据ChatGPT Agent的系统卡片显示它是一个新的代理模型,与OpenAI o3同属一个系列,采用了端到端的训练方法。它是为代理任务开发的统一模型,而不是多个模型的工程化组合。
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光根据OpenAI放出的对比PPT我们可以看到这一训练基本上是通过强化学习过程完成的Grok4withtool路径应该差不多一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

经过再训练Agent结合了Deep research的多步研究和高质量报告生成能力、Operator通过远程可视化浏览器环境执行任务的能力、具有有限网络访问权限的终端工具,以及通过连接器访问外部数据源和应用程序的能力。

执行完复杂任务之后可以交付用户一个下载一个PPT一份文档

对Manus而言,OpenAI的这一新举措无疑是巨大的打击,甚至定价上两者差距不大GPTPlus套餐每月20美金即可使用ChatGPT AgentManus基础计划每月19美金

划重点

  • ChatGPT Agent:是能够执行复杂、多工具任务的统一AI Agent。

  • 它集成了对文本浏览器、GUI 浏览器、终端和图像生成工具的访问。

  • 支持与用户进行交互式、多轮对话,允许打断和澄清。

  • 安全防护升级:加强对网页“恶意提示”攻击的防御;设置高风险任务自动拒绝;生物/化学风险也按最高级别安全堆栈处理。

  • 它在多个现实世界和基准任务中取得了最先进的结果。

    一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光


ChatGPT Agent概览

功能像Manus

ChatGPT Agent核心是一个统一的代理系统 (unified agentic system),整合并扩展了 OpenAI 早期研究项目 "Operator"(侧重于网站交互)和 "Deep Research"(侧重于信息综合)的能力。

这使得 ChatGPT Agent 能够在一个单一的对话流中,无缝地从推理思考切换到执行具体动作。

虚拟计算机环境ChatGPT Agent在一个为其特设的虚拟计算机上执行所有任务。这个环境是沙盒化的,确保了操作的安全性。它能够在该环境中保存任务的上下文,即使用户中途打断或改变指令,也能从断点继续,而不会丢失进度。

智能工具箱为了完成复杂工作流,Agent 配备四种工具,并能根据任务需求自动选择最合适的工具:

  • 可视化浏览器 (Visual Browser): 用于与图形用户界面进行交互,例如点击按钮、填写表单和浏览为人类设计的网站。

  • 文本浏览器 (Text-based Browser): 用于需要高效推理和处理大量文本的网络查询。

  • 终端 (Terminal): 允许 Agent 运行代码、下载和处理文件。

  • API 访问: 可以直接调用 API 来获取信息,例如通过连接器访问 Google Drive、Gmail 和 GitHub 等应用的数据。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

新模型驱动ChatGPTAgent由一个专门为其开发的新模型驱动。这个模型通过强化学习 (reinforcement learning) 的方法,在需要使用多种工具的复杂任务上进行了专门训练,从而学会了如何在不同工具之间流畅切换并协同工作。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

它有以下特性:

自主任务执行: 用户可以用自然语言下达指令,例如“分析我的日历,并根据最近的新闻为我简报即将到来的客户会议”,Agent 能够自主规划并执行系列操作,如浏览网站、筛选信息、运行代码分析,并最终生成可编辑的幻灯片或电子表格等成果。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

协作与交互性:它会在需要时主动询问更多细节以完成目标。用户可以随时中断、重定向任务或完全接管浏览器的控制权。

安全与权限控制: 安全性是其设计的核心部分。在执行购买、提交表单、发送邮件或处理个人信息等具有实际影响的关键操作前,Agent 会明确请求用户许可。同时,它被禁止执行如金融转账或提供法律建议等高风险任务。OpenAI 还内置了针对“提示注入”等恶意攻击的防护措施。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光


多项基准测试跑分“破纪录”

最难的 HLE 达到 41.6%(with tool), 高于刚刚发布的Grok4(with tool41.0%

在测量广域知识与专家级提问的 Humanity’s Last Exam 上,单次作答准确率达 41.6%;采用并行八路推理并选取置信度最高答案后可提升到 44.4%。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

在极难的 FrontierMath 数学基准上,借助终端运行代码后准确率提升至 27.4%。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

在针对真实知识工作任务的内部评测中,ChatGPT 代理在约半数案例里已与人类持平或更佳;
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

在现实数据科学任务 DSBench 上,其分析与建模准确率分别达到 89.9% 与 85.5%,远超人类平均水平。一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光它对电子表格的直接编辑能力也领先:在 SpreadsheetBench 中拿到 45.5%,超过 Copilot in Excel 的 20%。此外,它在 BrowseComp、WebArena 等浏览评测里均刷新了SOTA。一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光(图:评测方法:SpreadsheetBench的作者在Windows 环境下使用 Microsoft Excel 对电子表格进行评估。我们则在 OSX 环境中使用 LibreOffice,这可能导致评分出现轻微差异。例如,作者报告 GPT‑4o 在整体 Hard 限制上的结果为 15.02%,而我们得到 13.38%。我们使用了完整的 912 道题目基准测试。

根据ChatGPT Agent自己做的PPT,PPT能力上上网冲浪能力上Agent能力相比纯粹的基础模型较明显的提升离人类还颇有距离

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

不是期货今日可用

自今日起,Pro 用户可以马上使用,Plus 与 Team 用户将在数日内陆续开通;Enterprise 与 Education 版本将于数周后接入。

Pro 每月可用 400 条消息,其他付费用户每月额度为 40 条,可通过灵活的按量计费追加。

实际使用非常简单:在任何对话中切到「代理模式」,描述目标,例如深度调研、制作演示或报销。屏幕左侧实时显示它的操作流程;若需要登录,系统会切换到「接管模式」安全输入凭证。

用户还可以把完成的任务设为周期性执行,例如每周一自动生成指标报告。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

奥特曼亲自提示风险

Agent强大危险

值得注意的是,奥特曼在发布会之后,立刻发了一条长贴,提示使用ChatGPT Agent的风险。

在“强调”过ChatGPT Agent处理复杂任务的强大能力后,特别郑重地提示了产品的风险,并强调我们尚不清楚具体会造成什么影响,但不法分子可能会试图“诱骗”用户的 AI 代理提供不该提供的私人信息并采取不该采取的行动,而这其中的方式我们无法预测。

模型可能会接触用户的敏感数据,或遭遇网页中的恶意「提示注入」攻击。为此他们沿用 Operator 期间的严格控制,并新增多项防护:

  • 关键动作前必须得到用户明确授权;

  • 部分高风险任务(如发送邮件)启用「监督模式」要求用户全程监控;

  • 碰到银行转账等高风险指令会主动拒绝;

  • 用户可以一键清除浏览数据并注销全部会话,或在不需联网时禁用连接器。

在生物与化学安全方面,OpenAI根据 Preparedness Framework 将该模型按高风险级别处理,上线了最全面的安全措施,并与政府、学界及安全机构合作开展红队测试与威胁建模,同时启动漏洞赏金计划,以便尽早发现并修补潜在问题。
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光


ChatGPT Agent

够遥遥领先吗?

ChatGPT Agent最大的创新在于首次在模型中直接集成了完整的虚拟机环境,用户可以实时观察AI的操作过程,这是其它模型产品不具备的。

但是,各主流模型公司都在“Agent即模型,模型即Agent”的路上越走越远。比如,在coding agent能力上几乎封神的Claude。

众多需要借用底层模型搭建的Agent产品,甚至离开了Claude,就什么也不是。

刚刚上线的Kimi K2采用开源的混合专家模型架构,定位就为Agentic Intelligence,且价格仅有Claude 4的1/6左右。上线之后,token的采用量排名持续飙升。

但从“模型即Agent”这条路来说,OpenAI并不能算是遥遥领先,仅仅能说迈出了一小步。

OpenAI在官方文档中也特别谦虚地表示

需要注意的是,功能仍处早期:例如幻灯片生成功能现为 beta,格式与美观度仍待提升,现阶段主要优化信息结构与元素可编辑性;未来我们将继续训练新版本,以生成更精致的文件。总的来说,随着持续迭代,ChatGPT 代理的效率、深度和多样性都会不断提升,我们也会逐步调优用户监督的力度,在易用与安全之间取得更好平衡。

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

着自家产品的演示,Sam Altman不禁又开始感叹,“我感受到了AGI”。

然而,在帖子后面还是有用户留言问,说好的GPT-5呢?

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光

AI能量站汇集AI应用实践的基础科普与教程,覆盖全球热门公司、顶尖科学家、研究员以及市场机构输出的人工智能的基础理论、技术研究、价值对齐理论和产业发展报告,以及全球的AI监管政策。帮助AI小白入门,替进阶选手跟踪最新的AI知识。

推荐阅读
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光斯坦福最新研究:硅谷AI创业潮,是一场大型的资源错配
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光奥特曼AI Ascent闭门会最新专访:2025,AI智能体正加速登场
一文读懂ChatGPT Agent:没超越Manus的能力范畴,但看到了端到端的曙光2025,中国芯片“第一战”打响

相关文章