
马斯克眼看收购 OpenAI 无望,
直接把自称地表最强AI模型
Grok3 拍了出来。
先来说说时间线,Grok3 目前需要在 Permium+ 或者在 grok.com 使用,一周左右更新完毕,API 要在等几周,语音模式的话还要再等几周,几个月后,Grok2 将会开源。
这个发布方式好眼熟啊,OpenAI 里 OpenAI 气的。而且还有不少细节没有在发布会上公布出来,特别是翻倍的订阅费和每月能领取到的$150 API。作为马斯克头号粉丝,我决定先来一个超级浓缩版。
这十四条信息足以覆盖 Grok3 现阶段的所有信息:
-
Grok3 采用了 OpenAI 同款的模型分类,包含两个版本:Grok3 和 Grok3 mini。推理模型:Grok3 Reasoning(Beta):满血版推理模型,仍在 Beta 阶段。Grok3 mini Reasoning:已比较成熟,牺牲部分精度换取响应速度。 -
目前在 grok.com 就能体验。想要免费尝试的可以先在 lmarena. ai 玩玩。 -
LMSYS 目前排第一,是首个突破 1400 分的模型,并且在所有类别中排名第一,全面到有点离谱。同时在 AIME(数学)上取得了 96 分,在 GPQA(科学)上取得了 85 分,与完整版的 o3 相当。 -
采用 OpenAI o系列模型同款的模糊思维链,Gork3 并不会展示原始思考过程。防蒸馏嘛,懂得都懂。 -
AI 大神 Andrej Karpathy 实测结论:Grok3 思考能力大约处于 o1-pro($200/月) 的能力水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。开启强思考模型的情况下,Grok3 Reasoning(Beta) 在 AIME 2025 上的表现高于 o3-mini-high。 -
Grok3 计算量比 Grok2 高出十倍,是 DeepSeek V3 的 263 倍,1 月份才完成了预训练。 -
Grok2 将在几个月开源,感谢 DeepSeek,Grok1.5 的时候已经成了闭源模型,现在又恢复开源了。 -
Grok3 背后的硬件 Colossus,是 200000 块 Nvidia H100 GPU 组成,力大砖飞啊。 -
除了 Grok 模型,这次还有DeepSearch,跟 OpenAI 名字很像,但体验感更像联网版 DeepSeek R1。 -
Grok3 还会有语音模式,而且还将支持多模态,不会只有语音合成 -
目前 X Premium+ 用户可以率先使用 Grok 3。就是这个价格太黑心,从涨 22,Grok出来马上变$40了,涨幅高达 45%。这一点倒是不像OpenAI,毕竟他们不敢这样定价 -
马斯克还单独为 Grok 服务推出了订阅计划,SuperGrok 订阅计划为每个月 30 美元或每年 300 美元。至少现阶段还是 OpenAI 和 DeepSeek 香啊。 -
目前并未透露 Premium + 和 SuperGrok 这两种不同的订阅计划在配额上有哪些区别,所以想体验的话,Premium+是比较推荐的。 -
XAI 估值已经到了 $750 亿,接近 OpenAI 估值的一半。
再来从图表上分析一下Grok3的具体性能,有没有水分:
-
从基础模型的性能上看,Grok比起各家的基础模型,是有一定飞跃的。

-
虽然 Grok3 的表现证明了 Scaling Law 仍在生效。但是这个图还是有点误导性好强,AIME(数学)的蓝色和浅蓝色差距不小,不开 sampling 的话,Grok3 推理版应该是跟 R1 同水平的

一、领取XAI $150 API额度
我先把更详细的Grok实测视频演示放在后面一点,
先一起薅薅马斯克的羊毛,把每个月$15额度的 XAI API 拿到手,只要 Grok3 的API价格不是贵到离谱,个人使用应该是够够的了。
console.x.ai
,随意选择适合的登陆方式就行


Share data
就行。这个选择意味着是将个人数据分享给 XAI 使用,每月可得$150 credits
二、基础编程
拿到API后,就等着Grok3上线就行。
因为发布会里面对于数学、科学都是直接以图标的分数来展示效果的。
所以我按照基础编程、物理模拟编程、Deep Search和秘密的语音模型来进一步解析 Grok3 的能力秘密。

因为马斯克很看好 AI 游戏,直播中也透露后续会做一个AI游戏社区。所以实机演示的时候,用 Grok 将《俄罗斯方块》(Tetris)和《宝石迷阵》(Bejeweled)这两款游戏结合起来,创造出一个新的游戏。
这个点是挺新颖的,不是光去复刻已有的游戏,而是创作
一个混合游戏,就是这难度估计有点高,直播好几次都卡在思考过程中了。假设没有做录屏的情况下,最后一次 Grok3 还是成功做出了 demo。
AI正确理解了元素融合。游戏规则不再是传统的俄罗斯方框中的我要凑够一行排满消掉一行,而是正确理解并融合了宝石迷阵的规则,实现了三个颜色一样的方块凑在一起就可以消除一次,确实很棒。
三、物理世界模拟
除了做游戏外,Grok3 也做了最近很火的代码模拟世界,
这波是跟 SpaceX 联动了,让Grok3生成一段飞行器从地球发射到火星再返回地球的3D动画(虽然后续被验证按照这个动画的话,飞行器连地球都飞不出去。。。)
那Grok3在2D维度下做物理模拟效果如何呢?
至少在目前的复刻结果上看,Grok3的编码能力没那么强,Claude含金量还在上涨。
四、UI很好看的DeepSearch
接下来我们看看 DeepSearch,
我听到名字的第一时间就感觉你们是不是真的没有名字可以用了,Deep Search 和 Deep Research 来回用是吧。
虽然名字很 OpenAI,但是实际上更偏向于搜索而不是做研究报告。现阶段做AI搜索关键点的就是信息源,按照之前体验 Grok2 的经验来说,Grok3 + X 的信息源的话,实打实能给OpenAI的AI Search产生威胁,如果在额度上能提升的话,$30的套餐也不是不能接受啊。
现场展示的环节里,Grok3被要求预测 NCAA 疯狂三月赛事的胜负。这个是巴菲特在 2014 年发起的一个活动,历史上无人成功过。抄答案都没地方抄。
从实际演示里面,DeepSearch还是有认真做UI的,在侧边栏做个一个任务面板,我们可以实时检测正在进行的任务。(这个跟OpenAI Operator的侧边栏有点像啊)
五、反复跳票的语音模式
语音模式真的是一波三折,
去年8月的时候,马斯克就已经预告在24年底发布。
但是拖到这次发布会前一个小时,还临时取消发布,改成未来一周后灰度更新。
但还是画了个饼,在发布会最后放出了一段男声,因为时间太短,很难评质量,期待一下中文语音的表现吧。
写在最后
马斯克这波发布会对Grok的改动很大,
之前我对Grok的定位是有幽默感的AI,再加一个画人物图很准。
但这次基础模型、推理模型、语音模型、AI搜索都装上了,
可以说基本上追上了OpenAI的配置。以至于奥特曼在发布会前都有点心痒痒,虽说没发布新模型,但是还是发了个投票,计划后续开源的o3-mini层级的模型
还是端侧模型
。
23年,马斯克发布了33B的Grok 0,性能比肩 70B 的 Llama 2。11月份,又发了Grok 1模型。
24年,马斯克发布了Grok 1.5和Grok 2,还发布了一个多模态模型 Grok-1.5V。到现在的 Grok3,实际上XAI的追赶速度还是很快很快的,可以说不需要再半夜想着收购OpenAI了。

等下周陆续更新后,
再安排一波更完整的评测!
世界大模型卷起来吧!
@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro
最后,感谢你看到这里?如果喜欢这篇文章,不妨顺手给我们点赞?|在看?|转发?|评论?更多的内容正在不断填坑中……
