ChatGPT 记忆增强,AI 更懂我了!


Sam 兴奋地睡不着,我还以为 OpenAI 又有啥大动作,谁知几个小时过去了,只看到了一个记忆增强功能。虽然发布了,却又差很多点意思...

ChatGPT 记忆增强,AI 更懂我了!

Sam 原帖:一年里总有那么几次,我会因为要发布一个期待已久的新功能而在清晨兴奋地醒来,怎么也睡不着。今天就是这样的一天!

ChatGPT 记忆增强,AI 更懂我了!

记忆功能

ChatGPT 记忆功能可以引用你所有的过往聊天记录,提供更个性化的回复——基于你的喜好和兴趣,为写作、获取建议、学习等带来更多帮助。

ChatGPT 记忆增强,AI 更懂我了!

除了此前已有的保存记忆功能之外,它现在能够参考你过去的聊天记录,给出更贴合、有用的回复。新的对话会自然而然地建立在它对你的了解之上,让交互更加流畅,并为你量身打造独特的体验。

和往常一样,你可以完全掌控 ChatGPT 的记忆功能。你可以随时在设置中选择退出引用过去聊天记录或完全关闭记忆。如果你原先已经关闭了记忆功能,那么默认也不会引用过去的聊天记录。如果想修改 ChatGPT 对你的了解,只需在聊天中直接提出即可。如果想进行一次不使用或影响记忆的对话,也可使用临时聊天。

ChatGPT 记忆增强,AI 更懂我了!

记忆功能的最新改进从即日起,逐步向所有 Plus 和 Pro 用户推出,但不包括欧盟经济区(EEA)、英国、瑞士、挪威、冰岛和列支敦士登地区。团队版、企业版和教育版用户将在几周后获得使用权限。

当你在 ChatGPT 中看到以下提示时,就表示已经获得了改进后的记忆功能:

ChatGPT 记忆增强,AI 更懂我了!

额...,这次的记忆功能很难评价。感觉产生了两部分极端人群。喜欢的特别喜欢,认为 AI 更懂自己了,可以更好地交流。讨厌的人则认为 OpenAI 这是在将用户数据绑定在平台。还有一些人表示这种体验很差,认为在 ChatGPT 里有许多对话并没有特定意义,比较发散,让其成为记忆会十分凌乱。还有一些人不太敢相信这就是全部的更新,有点糊弄人了。

ChatGPT 记忆增强,AI 更懂我了!

也有一些有趣评论,项目太多,把 ChatGPT 搞懵逼了。人工智能不仅助我学习,更助力我蜕变!

ChatGPT 记忆增强,AI 更懂我了!

还有用户表示开启记忆后,回复变迟钝,还会翻老垃圾了 ?(扎心了,看来记太多也不是件好事)...

ChatGPT 记忆增强,AI 更懂我了!

评论区还看到一张关于 “Internal knowledge” 的截图,大概率也是这次更新的内容。

ChatGPT 记忆增强,AI 更懂我了!

BrowseComp

除改进的记忆功能外,OpenAI 还发布了一个评测基准。基准内容没太大意思,感兴趣的可以去看原文。不过针对 GPT 系列模型的测评结果还是挺有趣的,可以指导我们更好地使用 ChatGPT。

ChatGPT 记忆增强,AI 更懂我了!

BrowseComp[1](检验浏览代理能力的评测基准):随着 AI 代理在互联网浏览与知识获取方面的应用日趋广泛,高效的浏览代理必须能够搜寻并整合难以获取的信息,往往需要访问几十甚至上百个网站。现有的基准(如主要考察检索基本孤立事实的 SimpleQA)已经无法充分区分这些代理的优劣,比如具备浏览功能的 GPT-4o 在此类简单任务中几乎达到上限。为了评估 AI 代理在互联网中定位复杂、纠缠信息的真实能力,OpenAI 推出了一个名为 BrowseComp(“Browsing Competition”)的新基准,共包含 1,266 道难度较高的问题。该基准已经在 OpenAI 的 simple-evals[2] GitHub 项目中开源,并配套了研究论文供参考。

评测对象与结果

OpenAI 将以下模型应用于 BrowseComp 进行测试:

  1. GPT-4o、GPT-4.5(均不具备浏览功能)
  2. OpenAI o1(中等体量,不具备浏览功能,但推理能力相对较强)
  3. GPT-4o(带浏览功能)
  4. Deep Research(经过专门训练,能够进行持续网页浏览的代理模型)

1. GPT-4o 和 GPT-4.5

不具备浏览功能,准确率几乎为零,说明在需要多步推理或跨多个站点查找信息时,单纯依靠内部知识和有限推理无法应对 BrowseComp 的复杂问题。

2. GPT-4o(带浏览功能)

启用浏览后,准确率从 0.6% 提高到 1.9%,虽然有所提升,但整体仍较低。事实表明,仅具备浏览能力远远不够,模型还需要具备战略性推理思维,能够发现合适的搜索路径,并准确理解检索到的内容。

3. OpenAI o1

虽然没有浏览功能,但在推理能力上胜过 GPT-4o,准确率明显更高。这表明一部分问题可以直接通过内部推理来解答,而无需在线信息。

4. Deep Research

在所有模型中表现最佳,能解答大约一半的问题。它具备持续搜索、多源信息整合以及自适应搜索策略等特性,能够高效解决许多跨站点、多跳检索的复杂问题。通过整合大量在线信息,并在搜索过程中根据检索结果进行调整,Deep Research 尤其擅长处理那些内容小众、答案不直观且需要多网站交叉验证的题目——这些正是 BrowseComp 想要重点考查的难点。

小结

  • BrowseComp 与传统基准不同,专门针对难以检索、多步推理的问题设计。
  • 测试结果显示,浏览能力与推理能力同等重要;仅有浏览工具难以明显提高准确率,但若缺乏足够的推理能力,也难以利用浏览信息。
  • Deep Research 将自主浏览与复杂推理结合,能在此高难度基准上实现显著领先的表现。

总体而言,BrowseComp 有效地考验了 AI 代理在互联网中定位稀有信息、灵活调整搜索路径以及综合多方信息的能力,为后续提升浏览型 AI 模型的研发提供了重要参考。

爆料

公开的更新内容虽然有点少,但有人在最新版 ChatGPT 网页源代码中发现了新增的 o4-minio4-mini-high 和 o3 模型选项。感兴趣的朋友可自行查看源码 https://cdn.oaistatic.com/assets/o5mi5e8rf3i1o1na.js

ChatGPT 记忆增强,AI 更懂我了!
ChatGPT 记忆增强,AI 更懂我了!

References

[1]

BrowseComp: https://openai.com/index/browsecomp

[2]

simple-evals: https://github.com/openai/simple-evals

版权声明:charles 发表于 2025年4月12日 am6:39。
转载请注明:ChatGPT 记忆增强,AI 更懂我了! | AI工具大全&导航

相关文章