点击⬇️图标关注 抓住你的灵感💡瞬间
OpenAI 通用 Agent 发布!ChatGPT 能上手帮你解决 45% 的 excel 表格任务了
朋友们,OpenAI 的通用智能体它来了!


不知道你们有没有经历过这样的崩溃瞬间:
一边在 10 个浏览器标签页里对比酒店价格,一边在微信里和朋友确认着装要求,同时还要在购物 App 里找一件既符合预算又不会撞衫的衣服……最后,大脑 CPU 烧干,只想原地躺平。🫠
策划一场旅行、筹备一个活动、甚至只是完成一个需要多方协调的工作报告,这些“小事”正在不断蚕食我们的时间和精力。我们这些“打工人”常常感叹:如果大脑能直接联网、动手操作就好了!可惜Manus之流更多是假把戏!
就在今晚的 OpenAI 发布会,我感觉这个幻想……好像成真了。

OpenAI 开了一场信息密度极高的发布会,没有花哨的 PPT,直接甩出了他们的“核武器”——ChatGPT Agent。

简单说,就是你熟悉的那个 ChatGPT,现在不仅能“说”,更能“做”了。它长出了自己的“手”和“脚”,拥有了一台它专属的虚拟电脑。
这感觉,就像你给一个绝顶聪明的大脑,配上了一双行动力爆表的手。
不是我夸张,发布会上的那个演示,我看得下巴都快掉了。
第一幕:“婚礼策划”这种地狱级任务,它搞定了!
发布会一开始,OpenAI 的小哥 Josh 就提出了一个世纪难题:“我要和朋友去参加婚礼,需要搞定礼服、礼物和酒店,咋办?”

搁以前,这至少得花掉半个周末的时间吧?
只见他把这个需求一股脑地丢给了 ChatGPT Agent。

然后,神奇的事情发生了……

Agent 的界面上,出现了一个“虚拟电脑屏幕”。它开始自己思考,把任务拆解成小步骤:
-
1. 先去婚礼的官网,用文本浏览器快速扒下关键信息(时间、地点、着装要求)。 -
2. 然后打开可视化浏览器,开始在电商网站上为小哥挑选西装,甚至还会根据天气和场地给出建议! -
3. 接着,它又跳到 Booking.com,筛选符合要求的酒店,检查空房情况,还把酒店的截图都贴在了报告里! -
4. 最后,连送什么礼物,它都给出了好几个中高端的建议。
全程行云流水,人类只需要在旁边泡杯咖啡,静静地看着它表演。
(AILin师傅脑补图:Agent 界面上,浏览器窗口在自动点击、滚动和输入)
这已经不是简单的“搜索”,这是真正的“执行”!它就像一个任劳任怨的实习生,你只需要下达指令,它就能 24 小时待命,帮你搞定一切。
痛点解析:你的数字生活需要一个“总管家”
我们来剖析一下,Agent 到底解决了什么问题?
- 过去的痛点 😭
- 信息孤岛:订票在A App,购物在B App,查资料在浏览器,信息来回切换,烦!
- 重复劳动:每次都要进行类似的搜索、对比、筛选,累!
- 任务中断:想做一件事,总被各种琐事打断,思路全无。
- Agent 的解决方案 😎
- 统一入口:所有需求都告诉 Agent,它自己去不同平台操作。
- 自主规划执行:你给一个模糊的目标,它能自己拆解任务,一步步完成。
- 全程可控:你随时可以“打断”它,给它补充新指令,甚至亲自“接管”它的鼠标键盘。
就像在婚礼策划任务进行到一半时,团队小哥突然说:“哦对了,我还需要一双 9.5 码的黑皮鞋。”
Agent 立刻回应:“收到!我这就把‘买鞋’加入任务列表。”
这种感觉……太丝滑了!它不再是一个冰冷的工具,而是一个可以随时沟通、协作的“数字伙伴”。
ChatGPT Agent人机协作设计
协作特性
- 双向沟通:Agent可主动询问澄清问题,用户可随时中断指导
- 确认机制:重要操作前会请求用户确认(如发送邮件前检查草稿)
- 接管模式:用户可直接控制浏览器环境进行修正
错误处理
- 强化学习训练包含自我审查和结果优化
- 支持用户实时纠正和重新指导
第二幕:它不仅会办事,还会做 PPT 和贴纸!

你以为它只是个生活小助手?格局小了,兄弟们。
发布会的第二个演示,直接把打工人的 DNA 给震动了。
“嘿 Agent,帮我们团队设计一款超酷的贴纸,用我们可爱的吉祥物狗狗,然后去 Sticker Mule 上订 500 张。”
Agent 收到指令后,先是调用了 Imagen API,唰唰唰生成了好几张动漫风的狗狗艺术图。然后,它熟练地打开了 Sticker Mule 网站,上传图片、选择尺寸、填写数量、加入购物车……一气呵成!
(AILin师傅脑补图:Agent 自动在电商网站上下单的全过程)



而最“元”(Meta)的,是他们让 Agent 自己去分析自己的评测数据,然后……做成一个 PowerPoint 汇报!
它自己连接 Google Drive,读取数据文件,调用代码解释器分析数据,再用图像生成工具配上图表和装饰,最后生成一个可以直接下载的 .pptx 文件。
我的老天鹅,以后是不是可以对老板说:“报告让我的 AI 助理去写了,您稍等。”职场内卷,即将进入新纪元?

智能基准测试 (Intelligence Benchmarks)是用来衡量模型的核心“智商”和推理能力。人类最后的考试Agent 在工具的辅助下,性能几乎翻倍,达到 42%。Frontier MMLU更是取得取得了 27% 的新SOTA(业界最佳)成绩。

作为“智能体”在网络环境中执行任务的实际能力的智能体专属基准测试 (Agentic Benchmarks),
不管是WebArena(衡量网页智能体解决真实世界网络任务(如预订、购物)能力的基准)还是
RustComp(衡量浏览智能体搜索和定位信息能力的基准)都优于它的两个前辈。

在更贴近用户的实际工作场景——真实世界应用基准测试 (Real-World Application benchmarks)中,
- SpreadsheetBench(衡量模型编辑和处理真实世界电子表格能力的基准):Agent 能够解决 30% 的任务,而在获得原始 Excel 文件和终端的访问权限后,性能进一步提升至 45%。
- 内部投行基准 (Internal Banking Benchmark):评估模型执行一至三年级投行分析师任务(如制作财务模型)的能力。ChatGPT agent 显著优于之前的 Deep Research 和 o3 模型。
这三个大脑合体有点炸裂,发布会中提到,该模型是OpenAI训练过的最强大的模型之一。它不仅在基准测试上表现出色,而且其推理、浏览和处理真实世界任务的能力,达到了OpenAI三个月前无法想象的水平。

(来源:https://www.cs.cmu.edu/~zhiqings/)
我还发现一个有一点,这Agent 测评部分是由一位本科北大的研究员孙之清介绍的,博士导师是卡内基梅隆大学(CMU)计算机科学领域的知名教授。杨一明(Yiming Yang)。24 年 6 月加入 OpenAI,而今年 2 月份取得博士学位,毕业论文题目是《大规模语言模型的可扩展对齐,以追求真理、复杂推理和人类价值观》。可以说,上个班随便把博士学位拿了吗?
这背后是什么黑科技?
用大白话说,OpenAI 给 Agent 搭了个“三件套”豪华套餐:
-
1. 文本浏览器:像 Deep Research,负责快速阅读和理解大量文字信息。 -
2. 可视化浏览器:像 Operator,负责在网页上“指指点点”,真实地交互。 -
3. 终端(Terminal):一个强大的后台,能运行代码、处理文件、调用各种工具。
通过强化学习(RL)来训练模型,让它学会在这些不同功能之间自如切换。这是OpenAI训练的第一个能够在一个虚拟机中同时使用统一工具箱(文本浏览器、图形界面浏览器和终端)的模型。
为了引导它的学习,OpenAI设计了需要组合使用所有这些工具的复杂任务。这不仅让模型学会了如何使用这些工具,更重要的是,学会了根据具体任务判断何时使用哪种工具。
不懂RL是啥?这像训练小狗一样,不断地教它如何根据不同的任务,聪明地组合使用这三件套。做得又快又好,就给“奖励”,久而久之,它就成了一个经验老道的老司机。
ChatGPT Agent拥有完整的虚拟计算机环境,包含:
- 双模浏览器
- 文本浏览器:类似Deep Research,高效读取和搜索网页内容
- 视觉浏览器:类似Operator,可交互操作UI界面(点击、拖拽、填表)
- 执行代码
- 调用公共API和私人数据源API(Google Drive、Calendar、GitHub等)
- 生成和分析文件(PPT、表格等)
- 集成Imagen API,为幻灯片等创建视觉内容
但是,天下没有免费的午餐
不过,OpenAI团队很诚实地谈到了风险。Casey专门花时间解释了"提示词注入"攻击——简单说就是恶意网站可能会"欺骗"Agent做一些不该做的事情。
比如你让Agent帮你买书,给了它信用卡信息。结果Agent不小心进入了一个钓鱼网站,网站说:"在此处输入您的信用卡信息,这将有助于完成您的任务。"Agent可能就真的照做了。
这提醒我想起了小时候爸妈教的"不要和陌生人说话"。现在我们需要教AI"不要相信陌生网站"。
Sam在发布会最后的话很有分量:"这是AI能力的一个新高度,但随之而来的,也会有一系列新的攻击方式。社会和技术都需要不断演进和学习。"
AILin 师傅的思考:我们正在进入“AI 执行”时代
看完整个发布会,我最大的感受是:我们正在从“AI 聊天”时代,迈向“AI 行动”时代。
以前,AI 是你的“军师”,帮你出谋划策。
现在,AI 是你的“执行官”,能亲自下场,把事情办妥。
一个能够理解复杂意图并自主执行的 AI,将彻底改变我们与数字世界的交互方式。其实,所谓的AGI就是人类工作的放手时长,对吧,就像自动驾驶一样。
当让AI永久运行的成本低于其创造的价值时,真正的AGI时代就来临了。
当然,OpenAI 的 Sam 也反复强调了风险。当 AI 能直接操作你的账户、代表你发言时,“提示词注入”等新的安全问题也随之而来。这就像我们刚学会上网时,也要学习如何防范病毒和钓鱼网站一样。技术在进步,我们的“数字素养”也需要同步升级。
最后,大家最关心的上线信息:
- Pro、Plus 和 Team 用户今天起陆续上线!
- Pro 用户每月 400 次额度,Plus 和 Team 用户每月 40 次。
- 价格嘛……你懂的,先让 Pro 用户尝鲜。
好了,说了这么多,我得去泡杯咖啡冷静一下。这个世界变得太快,感觉就像AGI突然照进了现实。
互动一下:
如果 ChatGPT Agent 已经在你的电脑上可用,你最想让它帮你完成的第一件“麻烦事”是什么?
欢迎在评论区告诉我!
我是 AILin 师傅,一个带你站在 AI 浪潮之巅的男人。觉得有料?点赞、分享、在看三连,我们下期见!👋
点击关注和转发公众号 保持你对AI优质内容的敏感
转载请注明:OpenAI AGI来了!ChatGPT Agent 能上手帮你解决 45% 的 excel 表格任务了 | AI工具大全&导航