OpenAI AGI来了！ChatGPT Agent 能上手帮你解决 45% 的 excel 表格任务了

AI资讯 12个月前 charles

4.2K 0 30

点击⬇️图标关注抓住你的灵感💡瞬间

OpenAI 通用 Agent 发布！ChatGPT 能上手帮你解决 45% 的 excel 表格任务了

朋友们，OpenAI 的通用智能体它来了！

OpenAI AGI来了！ChatGPT Agent 能上手帮你解决 45% 的 excel 表格任务了

不知道你们有没有经历过这样的崩溃瞬间：

一边在 10 个浏览器标签页里对比酒店价格，一边在微信里和朋友确认着装要求，同时还要在购物 App 里找一件既符合预算又不会撞衫的衣服……最后，大脑 CPU 烧干，只想原地躺平。🫠

策划一场旅行、筹备一个活动、甚至只是完成一个需要多方协调的工作报告，这些“小事”正在不断蚕食我们的时间和精力。我们这些“打工人”常常感叹：如果大脑能直接联网、动手操作就好了！可惜Manus之流更多是假把戏！

就在今晚的 OpenAI 发布会，我感觉这个幻想……好像成真了。

OpenAI 开了一场信息密度极高的发布会，没有花哨的 PPT，直接甩出了他们的“核武器”——ChatGPT Agent。

简单说，就是你熟悉的那个 ChatGPT，现在不仅能“说”，更能“做”了。它长出了自己的“手”和“脚”，拥有了一台它专属的虚拟电脑。

这感觉，就像你给一个绝顶聪明的大脑，配上了一双行动力爆表的手。

不是我夸张，发布会上的那个演示，我看得下巴都快掉了。

第一幕：“婚礼策划”这种地狱级任务，它搞定了！

发布会一开始，OpenAI 的小哥 Josh 就提出了一个世纪难题：“我要和朋友去参加婚礼，需要搞定礼服、礼物和酒店，咋办？”

搁以前，这至少得花掉半个周末的时间吧？

只见他把这个需求一股脑地丢给了 ChatGPT Agent。

然后，神奇的事情发生了……

Agent 的界面上，出现了一个“虚拟电脑屏幕”。它开始自己思考，把任务拆解成小步骤：

1. 先去婚礼的官网，用文本浏览器快速扒下关键信息（时间、地点、着装要求）。
2. 然后打开可视化浏览器，开始在电商网站上为小哥挑选西装，甚至还会根据天气和场地给出建议！
3. 接着，它又跳到 Booking.com，筛选符合要求的酒店，检查空房情况，还把酒店的截图都贴在了报告里！
4. 最后，连送什么礼物，它都给出了好几个中高端的建议。

全程行云流水，人类只需要在旁边泡杯咖啡，静静地看着它表演。

(AILin师傅脑补图：Agent 界面上，浏览器窗口在自动点击、滚动和输入)

这已经不是简单的“搜索”，这是真正的“执行”！它就像一个任劳任怨的实习生，你只需要下达指令，它就能 24 小时待命，帮你搞定一切。

痛点解析：你的数字生活需要一个“总管家”

我们来剖析一下，Agent 到底解决了什么问题？

过去的痛点 😭

信息孤岛：订票在A App，购物在B App，查资料在浏览器，信息来回切换，烦！
重复劳动：每次都要进行类似的搜索、对比、筛选，累！
任务中断：想做一件事，总被各种琐事打断，思路全无。

Agent 的解决方案 😎

统一入口：所有需求都告诉 Agent，它自己去不同平台操作。
自主规划执行：你给一个模糊的目标，它能自己拆解任务，一步步完成。
全程可控：你随时可以“打断”它，给它补充新指令，甚至亲自“接管”它的鼠标键盘。

就像在婚礼策划任务进行到一半时，团队小哥突然说：“哦对了，我还需要一双 9.5 码的黑皮鞋。”

Agent 立刻回应：“收到！我这就把‘买鞋’加入任务列表。”

这种感觉……太丝滑了！它不再是一个冰冷的工具，而是一个可以随时沟通、协作的“数字伙伴”。

ChatGPT Agent人机协作设计

协作特性

双向沟通：Agent可主动询问澄清问题，用户可随时中断指导
确认机制：重要操作前会请求用户确认（如发送邮件前检查草稿）
接管模式：用户可直接控制浏览器环境进行修正

错误处理

强化学习训练包含自我审查和结果优化
支持用户实时纠正和重新指导

第二幕：它不仅会办事，还会做 PPT 和贴纸！

你以为它只是个生活小助手？格局小了，兄弟们。

发布会的第二个演示，直接把打工人的 DNA 给震动了。

“嘿 Agent，帮我们团队设计一款超酷的贴纸，用我们可爱的吉祥物狗狗，然后去 Sticker Mule 上订 500 张。”

Agent 收到指令后，先是调用了 Imagen API，唰唰唰生成了好几张动漫风的狗狗艺术图。然后，它熟练地打开了 Sticker Mule 网站，上传图片、选择尺寸、填写数量、加入购物车……一气呵成！

(AILin师傅脑补图：Agent 自动在电商网站上下单的全过程)

而最“元”（Meta）的，是他们让 Agent 自己去分析自己的评测数据，然后……做成一个 PowerPoint 汇报！

它自己连接 Google Drive，读取数据文件，调用代码解释器分析数据，再用图像生成工具配上图表和装饰，最后生成一个可以直接下载的 .pptx 文件。

我的老天鹅，以后是不是可以对老板说：“报告让我的 AI 助理去写了，您稍等。”职场内卷，即将进入新纪元？

智能基准测试 (Intelligence Benchmarks)是用来衡量模型的核心“智商”和推理能力。人类最后的考试Agent 在工具的辅助下，性能几乎翻倍，达到 42%。Frontier MMLU更是取得取得了 27% 的新SOTA（业界最佳）成绩。

作为“智能体”在网络环境中执行任务的实际能力的智能体专属基准测试 (Agentic Benchmarks)，

不管是WebArena（衡量网页智能体解决真实世界网络任务（如预订、购物）能力的基准）还是

RustComp（衡量浏览智能体搜索和定位信息能力的基准）都优于它的两个前辈。

在更贴近用户的实际工作场景——真实世界应用基准测试 (Real-World Application benchmarks）中，

SpreadsheetBench（衡量模型编辑和处理真实世界电子表格能力的基准）：Agent 能够解决 30% 的任务，而在获得原始 Excel 文件和终端的访问权限后，性能进一步提升至 45%。
内部投行基准 (Internal Banking Benchmark)：评估模型执行一至三年级投行分析师任务（如制作财务模型）的能力。ChatGPT agent 显著优于之前的 Deep Research 和 o3 模型。

这三个大脑合体有点炸裂，发布会中提到，该模型是OpenAI训练过的最强大的模型之一。它不仅在基准测试上表现出色，而且其推理、浏览和处理真实世界任务的能力，达到了OpenAI三个月前无法想象的水平。

（来源：https://www.cs.cmu.edu/~zhiqings/）

我还发现一个有一点，这Agent 测评部分是由一位本科北大的研究员孙之清介绍的，博士导师是卡内基梅隆大学（CMU）计算机科学领域的知名教授。杨一明（Yiming Yang）。24 年 6 月加入 OpenAI，而今年 2 月份取得博士学位，毕业论文题目是《大规模语言模型的可扩展对齐，以追求真理、复杂推理和人类价值观》。可以说，上个班随便把博士学位拿了吗？

这背后是什么黑科技？

用大白话说，OpenAI 给 Agent 搭了个“三件套”豪华套餐：

1. 文本浏览器：像 Deep Research，负责快速阅读和理解大量文字信息。
2. 可视化浏览器：像 Operator，负责在网页上“指指点点”，真实地交互。
3. 终端（Terminal）：一个强大的后台，能运行代码、处理文件、调用各种工具。

通过强化学习（RL）来训练模型，让它学会在这些不同功能之间自如切换。这是OpenAI训练的第一个能够在一个虚拟机中同时使用统一工具箱（文本浏览器、图形界面浏览器和终端）的模型。

为了引导它的学习，OpenAI设计了需要组合使用所有这些工具的复杂任务。这不仅让模型学会了如何使用这些工具，更重要的是，学会了根据具体任务判断何时使用哪种工具。

不懂RL是啥？这像训练小狗一样，不断地教它如何根据不同的任务，聪明地组合使用这三件套。做得又快又好，就给“奖励”，久而久之，它就成了一个经验老道的老司机。

ChatGPT Agent拥有完整的虚拟计算机环境，包含：

双模浏览器

文本浏览器：类似Deep Research，高效读取和搜索网页内容
视觉浏览器：类似Operator，可交互操作UI界面（点击、拖拽、填表）

终端环境

执行代码
调用公共API和私人数据源API（Google Drive、Calendar、GitHub等）
生成和分析文件（PPT、表格等）

图像生成能力

集成Imagen API，为幻灯片等创建视觉内容

但是，天下没有免费的午餐

不过，OpenAI团队很诚实地谈到了风险。Casey专门花时间解释了"提示词注入"攻击——简单说就是恶意网站可能会"欺骗"Agent做一些不该做的事情。

比如你让Agent帮你买书，给了它信用卡信息。结果Agent不小心进入了一个钓鱼网站，网站说："在此处输入您的信用卡信息，这将有助于完成您的任务。"Agent可能就真的照做了。

这提醒我想起了小时候爸妈教的"不要和陌生人说话"。现在我们需要教AI"不要相信陌生网站"。

Sam在发布会最后的话很有分量："这是AI能力的一个新高度，但随之而来的，也会有一系列新的攻击方式。社会和技术都需要不断演进和学习。"

AILin 师傅的思考：我们正在进入“AI 执行”时代

看完整个发布会，我最大的感受是：我们正在从“AI 聊天”时代，迈向“AI 行动”时代。

以前，AI 是你的“军师”，帮你出谋划策。

现在，AI 是你的“执行官”，能亲自下场，把事情办妥。

一个能够理解复杂意图并自主执行的 AI，将彻底改变我们与数字世界的交互方式。其实，所谓的AGI就是人类工作的放手时长，对吧，就像自动驾驶一样。

当让AI永久运行的成本低于其创造的价值时，真正的AGI时代就来临了。

当然，OpenAI 的 Sam 也反复强调了风险。当 AI 能直接操作你的账户、代表你发言时，“提示词注入”等新的安全问题也随之而来。这就像我们刚学会上网时，也要学习如何防范病毒和钓鱼网站一样。技术在进步，我们的“数字素养”也需要同步升级。

最后，大家最关心的上线信息：

Pro、Plus 和 Team 用户今天起陆续上线！
Pro 用户每月 400 次额度，Plus 和 Team 用户每月 40 次。
价格嘛……你懂的，先让 Pro 用户尝鲜。

好了，说了这么多，我得去泡杯咖啡冷静一下。这个世界变得太快，感觉就像AGI突然照进了现实。

互动一下：

如果 ChatGPT Agent 已经在你的电脑上可用，你最想让它帮你完成的第一件“麻烦事”是什么？

欢迎在评论区告诉我！

我是 AILin 师傅，一个带你站在 AI 浪潮之巅的男人。觉得有料？点赞、分享、在看三连，我们下期见！👋

点击关注和转发公众号保持你对AI优质内容的敏感

版权声明：charles 发表于 2025年7月17日 pm8:06。
转载请注明：OpenAI AGI来了！ChatGPT Agent 能上手帮你解决 45% 的 excel 表格任务了 | AI工具大全&导航

绿岛舆情｜AI赋能政务热潮下,莫让"赋能"变"负能"

charles

19.3K 10

OpenAI 年度发布会：Agent平台/Sora API/第三方接入ChatGPT/... 讲的没讲的，都在这了

charles

75 20

手把手教你打造通用型LLM智能体，一文读懂核心原理！

charles

8.8K 35

Sam Altman 最新文章：悄然而至的奇点，一场温和的革命

charles

10.1K 5

🧠 大模型到底厉害在哪？看完这篇你就懂了！

charles

5.3K 10

🧠 解码大语言模型的记忆力：上下文长度的前世今生

charles

6.7K 15

OpenAI AGI来了！ChatGPT Agent 能上手帮你解决 45% 的 excel 表格任务了

第一幕：“婚礼策划”这种地狱级任务，它搞定了！

痛点解析：你的数字生活需要一个“总管家”

ChatGPT Agent人机协作设计

协作特性

错误处理

第二幕：它不仅会办事，还会做 PPT 和贴纸！

这背后是什么黑科技？

但是，天下没有免费的午餐

AILin 师傅的思考：我们正在进入“AI 执行”时代

王坚对谈黄仁勋，都聊了啥？

🧠 大模型到底厉害在哪？看完这篇你就懂了！

相关文章

相关文章