OpenAI Day12丨满血版o3和o3 mini即将到来

AI资讯 1年前 (2025) charles

9.1K 0 50

OpenAI 连续12天的直播结束了，完美撒花。嗯...，不是为 OpenAI 完美收官撒的，是为每天熬夜追发布会的人撒的，大家辛苦了，我也辛苦了。

追到最后一天，Dalle 4、GPT-4.5、猎户座都没有，只是大家的猜测罢了，今天，发了2个期货，o3 和 o3mini，目前，只对 OpenAI 内部和部分外部安全研究人员开放，发布会结束后，Sam 还发布了一个帖子，叫大家申请测试，没卵用，几乎不能通过。

发布会内容主要就是讲了 o3 和 o3 mini 的各种基准测试，在各种能力上面领先之前的模型多少多少，这就是今天的全部内容了。喔不，最后 Sam 还跟你说了一句“圣诞快乐”。

o3 是 OpenAI 目前最新最好的推理模型，为什么没有 o2，因为跟英国电信服务提供商 o2 存在潜在的版权或商标冲突，所以就跳过 o2 了，直接 o3。

01 o3 模型

1、编码基准：在软件风格基准测试里，准确率约 71.7%，超 o1 模型 20% 以上；在 code 共动力 1891 竞赛编码网站上实现 Elo，计算能力达每年 27 年目标。

2、数学基准：在美国数学奥林匹克考试（GP QA 潜水）中，准确率约 87.7%，比 o1 模型好 10% 左右；在 epic AIS 数学基准测试中，准确率超 20%，虽低于其他基准测试，但该基准极难。

3、Arc 基准：在 Arc AGI 版本一中，o3 于交流搅拌半决赛获 75.7 分，高计算设置下得 87.5%，超人类 85% 阈值，属新里程碑。

02 o3 Mini 模型

o3 Mini 是 o3 系列中的高效推理模型，适用于任何需要数学和编码能力的人。由于成本低，o3 Mini 可能会在全球范围内开放使用。

o3 Mini 支持三种不同的思考时间选项，低、中、高，我们可以根据需要进行调整，这些选项指的是模型的 “努力” 程度，也就是模型思考的时间，我们可以根据自己的使用情况自由调整模型的思考时间。

1、编码能力：支持自适应思维时间，低中位数思考时间下代码性能优于 o1 Mini；在速度和成本方面出色，定义新编码成本效益前沿。

2、数学能力：在 2024 年数据集上，低推理努力选项下与 o1 Mini 和 o3 Mini 性能相当，中位数思考时间性能更好，高推理努力下可进一步提升；延迟大幅减少，支持函数调用等功能，性能优于多数模型。

最后，OpenAI 提出了一种名为“协商对齐”的新技术，利用模型的推理能力来找到更准确的安全边界，从而提高安全性。说白了就是，当我们在模型的基础上进行安全培训时，试图让模型学习什么是安全的，什么是不安全。

o3 和 o3 mini 在各种推理能力上都提升很多，我们离 AGI 又近了一步，那么之后模型推理能力达到极致时，微调、RAG、Prompt等技术还有用吗，我想这才是需要开发者需要提前预判的，我们不能做太多之后模型能力提升之后就会取代的功能，这只会给更强的模型做嫁衣。

致敬，所有熬夜追 OpenAI 发布会的勇士，Respect！

版权声明：charles 发表于 2025年2月1日 am4:25。
转载请注明：OpenAI Day12丨满血版o3和o3 mini即将到来 | AI工具大全&导航

charles

0 25

charles

10.1K 10

charles

8.1K 50

charles

0 25

charles

0 10

charles

0 30