OpenAI Day12丨满血版o3和o3 mini即将到来


OpenAI 连续12天的直播结束了,完美撒花。嗯...,不是为 OpenAI 完美收官撒的,是为每天熬夜追发布会的人撒的,大家辛苦了,我也辛苦了。

追到最后一天,Dalle 4、GPT-4.5、猎户座都没有,只是大家的猜测罢了,今天,发了2个期货,o3 和 o3mini,目前,只对 OpenAI 内部和部分外部安全研究人员开放,发布会结束后,Sam 还发布了一个帖子,叫大家申请测试,没卵用,几乎不能通过。

OpenAI Day12丨满血版o3和o3 mini即将到来

发布会内容主要就是讲了 o3 和 o3 mini 的各种基准测试,在各种能力上面领先之前的模型多少多少,这就是今天的全部内容了。喔不,最后 Sam 还跟你说了一句“圣诞快乐”。

o3 是 OpenAI 目前最新最好的推理模型,为什么没有 o2,因为跟英国电信服务提供商 o2 存在潜在的版权或商标冲突,所以就跳过 o2 了,直接 o3。

OpenAI Day12丨满血版o3和o3 mini即将到来

01 o3 模型

1、编码基准:在软件风格基准测试里,准确率约 71.7%,超 o1 模型 20% 以上;在 code 共动力 1891 竞赛编码网站上实现 Elo,计算能力达每年 27 年目标。

OpenAI Day12丨满血版o3和o3 mini即将到来

2、数学基准:在美国数学奥林匹克考试(GP QA 潜水)中,准确率约 87.7%,比 o1 模型好 10% 左右;在 epic AIS 数学基准测试中,准确率超 20%,虽低于其他基准测试,但该基准极难。

OpenAI Day12丨满血版o3和o3 mini即将到来

3、Arc 基准:在 Arc AGI 版本一中,o3 于交流搅拌半决赛获 75.7 分,高计算设置下得 87.5%,超人类 85% 阈值,属新里程碑。

OpenAI Day12丨满血版o3和o3 mini即将到来

02 o3 Mini 模型


o3 Mini 是 o3 系列中的高效推理模型,适用于任何需要数学和编码能力的人。由于成本低,o3 Mini 可能会在全球范围内开放使用。 

OpenAI Day12丨满血版o3和o3 mini即将到来

o3 Mini 支持三种不同的思考时间选项,低、中、高,我们可以根据需要进行调整,这些选项指的是模型的 “努力” 程度,也就是模型思考的时间,我们可以根据自己的使用情况自由调整模型的思考时间。


OpenAI Day12丨满血版o3和o3 mini即将到来


1、编码能力:支持自适应思维时间,低中位数思考时间下代码性能优于 o1 Mini;在速度和成本方面出色,定义新编码成本效益前沿。

OpenAI Day12丨满血版o3和o3 mini即将到来

2、数学能力:在 2024 年数据集上,低推理努力选项下与 o1 Mini 和 o3 Mini 性能相当,中位数思考时间性能更好,高推理努力下可进一步提升;延迟大幅减少,支持函数调用等功能,性能优于多数模型。

最后,OpenAI 提出了一种名为“协商对齐”的新技术,利用模型的推理能力来找到更准确的安全边界,从而提高安全性。说白了就是,当我们在模型的基础上进行安全培训时,试图让模型学习什么是安全的,什么是不安全。

o3 和 o3 mini 在各种推理能力上都提升很多,我们离 AGI 又近了一步,那么之后模型推理能力达到极致时,微调、RAG、Prompt等技术还有用吗,我想这才是需要开发者需要提前预判的,我们不能做太多之后模型能力提升之后就会取代的功能,这只会给更强的模型做嫁衣。

致敬,所有熬夜追 OpenAI 发布会的勇士,Respect!

版权声明:charles 发表于 2025年2月1日 am4:25。
转载请注明:OpenAI Day12丨满血版o3和o3 mini即将到来 | AI工具大全&导航

相关文章