我反复公开抨击他们。我广泛地谈论了他们的开源竞争对手 DeepSeek R1,以及一个由中国研究人员组成的小团队如何在他们自己的游戏中基本上摧毁了 OpenAI。
我还谈到了 Operator,他们试图打造一个能够完全自主执行任务的实用“AI 代理”的失败尝试。
所以当 Sam Altman 宣布他们发布 o3-mini 时,我以为这又是一次试图窃取真正成功的 AI 公司风头的失败尝试。
我完全错了。O3-mini 太棒了。
什么是 O3-mini?
OpenAI 的 o3-mini 是他们新的、改进的大型推理模型。
与立即响应的传统大型语言模型不同,推理模型旨在“思考”答案,然后再提出解决方案。而这个过程过去需要很长时间。
例如,当我将 DeepSeek R1 集成到我的算法交易平台 NexusTrade 中时,我将所有超时时间增加到了 30 分钟……仅仅为了一个问题。

我的应用程序代码轮询响应大约 30 分钟
我还将实现从传统的请求/响应方法更改为基于轮询的方法因为连接会直接超时。
然而,OpenAI 做了一件令人难以置信的事情。他们不仅制造了一个比他们之前的日常使用模型 GPT-4o 更便宜的推理模型……

GPT-4o 与 OpenAI o3-mini 的成本
而且它不仅比他们之前的最佳模型 O1 更强大……

O3 在博士水平的科学问题上比 O1-preview、O1 和 O1-mini 更好
而且它还非常快。比我用过的任何推理模型都要快得多。
而且,当被问到复杂问题时,它会完美地回答,甚至比 o1、DeepSeek 的 R1 以及我用过的任何其他模型都要好。
所以,我想对其进行基准测试。让我们比较一下 OpenAI 的 o3 和 1 月份最热门的语言模型 DeepSeek R1。
DeepSeek R1 与 OpenAI o3-mini 的并排比较

要求 LLM 查询符合此标准的股票
我们将对这两个模型进行并排比较,以完成一项复杂的推理任务:生成一个复杂的、语法有效的 SQL 查询。
我们将根据以下几点比较这些模型:
- 准确性
:模型是否生成了正确的响应? - 延迟
:模型生成响应需要多长时间? - 成本
:大约哪个模型生成响应的成本更高?
前两个类别是不言自明的。以下是我们如何比较成本。
我们知道 DeepSeek R1 的成本为 0.75 美元/百万输入 token 和 2.4 美元/百万输出 token。

来自 OpenRouter 的 R1 的成本
相比之下,OpenAI 的 o3 为 1.10 美元/百万输入 token 和 4.4 美元/百万输出 token。

OpenAI 的 O3-mini 的成本
因此,o3-mini 大约是每个请求的两倍成本。
但是,如果模型生成不准确的查询,则应用程序层中存在自动重试逻辑。
因此,为了计算成本,我们将查看模型重试的次数,计算发送的请求数量,并创建一个估计的成本指标。 R1 的基线成本将是 'c',所以在没有重试的情况下,因为 o3-mini 的成本是 '2c'(因为它贵两倍)。
现在,让我们开始吧!
使用 LLM 生成复杂、语法有效的 SQL 查询
我们将使用 LLM 生成语法有效的 SQL 查询。
此任务对于现实世界的 LLM 应用程序非常有用。通过将纯英语转换为数据库查询,我们将界面从按钮和鼠标点击更改为我们可以理解的东西——语言。
它的工作原理是:
-
我们获取用户的请求并将其转换为数据库查询 -
我们针对数据库执行查询 -
我们获取用户的请求、模型的响应以及查询的结果,并要求 LLM 对响应进行“评分” -
如果“评分”高于某个阈值,我们会将答案显示给用户。否则,我们会抛出一个错误并自动重试。
让我们从 R1 开始
对于此任务,我将从 R1 开始。我将要求 R1 向我展示一些高股息股票。这是请求:
Show me large-cap stocks with:
-
Dividend yield >3% -
5 year dividend growth > 5% -
Debt/Equity <0.5
我曾两次分别要求模型执行此操作。在两个测试中,模型要么超时,要么找不到任何股票 ??

我发誓这不是精心挑选的。
当我深入研究日志时,我发现该模型正在努力生成准确的查询。

R1 生成的查询
仅从手动检查来看,我们看到:
-
它正在使用总负债(而不是债务)进行比率计算 -
它试图查询全年的收益,而不是使用最新季度 -
它正在使用过去 12 个月股息数据的平均股息率
最后,我必须直接检查数据库日志才能查看经过的时间。

数据库中的聊天日志截图
这些日志显示该模型在 41 分钟后最终放弃了!这显然不适合实时财务分析。
因此,对于 R1,最终分数是
- 准确性
:它没有生成正确的响应 = 0 - 成本
:经过 5 次重试,它的成本为 5c + 1c = 6c - 延迟
:41 分钟
R1 的表现不佳……
现在,让我们使用 OpenAI 的新 O3-mini 模型重复此测试。
接下来是 O3
我们将向 O3-mini 提出完全相同的问题。
与 R1 不同,速度的差异是天壤之别。
我在下午 6:26 提出了问题,并在 2 分 24 秒后收到了回复。
这包括 1 次重试尝试、1 次评估查询的请求和 1 次总结结果的请求。
最后,我得到了以下回复。

模型的回应
我们得到了符合我们查询的股票列表。像 Conoco、CME Group、EOG Resources 和 DiamondBack Energy 这样的股票的股息增长迅猛,债务权益比非常低,并且市值很大。
如果我们点击消息底部的“信息”图标,我们还可以检查查询。

O3-mini 生成的查询
通过手动检查,我们知道此查询符合我们的要求。因此,对于我们的最终等级:
- 准确性
:它生成了正确的响应 = 1 - 成本
:1 次重试尝试 + 1 次评估查询 + 1 次总结查询 = 3c * 2(因为它贵两倍)_ = 6c_ - 延迟
:2 分钟 24 秒
对于这个例子,我们可以看到 o3-mini 在各个方面都优于 r1。它快几个数量级,成本相同,并且它针对复杂的财务分析问题生成了准确的查询。
能够以低于去年日常使用模型的价格完成所有这些,绝对令人难以置信。
现在,让我们总结一下这篇文章。
结论
在 DeepSeek 发布 R1 之后,我承认我对 OpenAI 提出了很多批评。从极其昂贵到完全搞砸 Operator,再到发布一个缓慢、无法使用的玩具冒充 AI 代理,OpenAI 在 1 月份遭受了很多失败。
他们通过 O3-mini 弥补了所有这些。
该模型使他们以惊人的第一名重返 AI 竞赛。 O3-mini 速度快如闪电、极其准确且具有成本效益。与 R1 一样,我已将其集成到我的 AI 驱动的交易平台 NexusTrade 的所有用户中。
此版本展示了我们在 AI 方面取得的指数级进展。随着时间的推移,这些模型将以一小部分的成本变得越来越好。
我非常兴奋地看到它的发展方向。
转载请注明:OpenAI 重回 AI 竞赛——DeepSeek R1 与 OpenAI o3-mini 的比较 | AI工具大全&导航