埃隆.马斯克的xAI大模型Grok3发布及性能评估

AI资讯 1年前 (2025) charles

10.1K 0 20

埃隆马斯克超人形象：X推特强势媒体及集新能源电车、星链和空间探索SpaceX，DOG，火星人等等。xAI大模型Grok3（x内部产品代码“巧克力”）性能究竟如何，由于不能实测使用，也没有技术论文报告，且Grok3与OpenAI o1/o3一样闭源，目前只能借助第三方评估机构如Imarena、AI大神卡帕西的评价及xAI自己发布的数据来分享。仅仅听厂家、名人和评估机构还不够，实际要等未来的使用和国内能够访问，当下建议还是先用DeepSeek v3/R1吧，这个就在手边好用。但是需要眼神盯着Grok3产品的进展。

1花絮：XAI与OPENAI发布会对比

2XAI自己的性能评价

3第三方LMARENA评估

4安德烈.卡帕西 GROK3测试评价

1 Grok3发布花絮：xAI与OpenAI发布会对比

先来点有趣的。

OpenAI CEOo1/o3发布会比较安宁祥和，就是感觉在客厅，灯光比较温暖。xAI的背景是黑色的宇宙太空，无比深奥，想象远处是火星。从产品角度OpenAI更现实，xAI更遥远。共同点都是闭源，都是会员订阅付费制。

1）AI科技发布会都有共性。CEO创始人必须出镜登场，描绘产品的未来蓝图。山姆喜欢在左面出现（Left），埃隆喜欢右面出现（Right）

2）必须四人组合(F4)，多不好记，少了不对称。

3）发布会F4组合必须有华人AI工程师面孔，表示这个团队和产品具有高超智慧、能干、勤奋产品形象。都是DeepSeek给逼的。

2 xAI自己的性能评价

1）大语言模型版本。Grok3与OpenAI的o1,o3及谷歌的Gemini-2 pro, Anthropic Sonnet,DeepSeek v3基准对比。

2）推理版本。Grok3 Reasoning Beta版本与DeepSeek – R1与OpenAI的o1,o3及谷歌的Gemini-2 Flash Thinking对比。

3 第三方lmarena评估

1）通用对比。

2）编程对比。

数据：https://lmarena.ai/?leaderboard

4AI大神安德烈.卡帕西Grok3测试评价

思考

可以看出，Grok3还可以，但是也有不足。

✅
首先，Grok 3显然有一个最先进的思维模型（“思考”按钮），并且在我的卡坦岛定居者问题上做得很好：

“创建一个显示六边形网格的棋盘游戏网页，就像在游戏Settlers of Catan中一样。每个六边形网格从1..N开始编号，其中N是六边形图块的总数。让它通用，这样就可以使用滑块来改变“ring”的数量。例如，在Catan中，半径为3个六角形。请提供单个html页面。

很少有模型能可靠地做到这一点。顶级OpenAI思维模型（例如o1-pro，每月200美元）也能获得它，但DeepSeek-R1、Gemini 2.0 Flash Thinking和Claude都没有。

❌它没有解决我的“表情符号之谜”问题，即我给出一个笑脸，并在Unicode变体选择器中隐藏了一条附加消息，即使我以Rust代码的形式给出了有关如何解码它的强烈提示。我见过的最大的进步来自DeepSeek-R1，它曾经部分解码了消息。

❓它解决了我给它的一些井字棋盘，思维链相当不错/干净（许多SOTA模型经常失败！所以我提高了难度并要求它生成3个“棘手”的井字棋盘，它失败了（生成无意义的棋盘/文本），但后来o1 pro也这样做了。

✅上传了GPT-2论文。我问了一堆简单的查找问题，都效果很好。然后要求估计训练GPT-2所需的训练失败次数，无需搜索。这很棘手，因为标记的数量没有拼写出来，所以必须部分估计和部分计算，强调所有的查找、知识和数学。一个例子是40GB的文本~= 40B字符~= 40B字节（假设ASCII）~= 10B令牌（假设~4字节/tok），在~10个时期~= 100B令牌训练运行，在1.5B参数和2+4=6个浮点运算/参数/令牌时，这是100e9 X 1.5e9 X 6 ~= 1e21 FLOPs。Grok 3和4o都无法完成这项任务，但带有Thinking的Grok 3很好地解决了它，而o1 pro（GPT思维模型）则失败了。

我喜欢这个模型在被要求时*会*尝试解决黎曼假设，类似于DeepSeek-R1，但与许多其他立即放弃的模型（o1-pro、Claude、Gemini 2.0 Flash Thinking）不同，简单地说这是一个巨大的未解决的问题。我最终不得不停止它，因为我为它感到有点难过，但它显示了勇气，谁知道呢，也许有一天......

我在这里得到的总体印象是，这大约是o1-pro的能力，领先于DeepSeek-R1，尽管我们当然需要实际的、真实的评估来查看。

DeepSearch

非常简洁的产品，似乎结合了OpenAI / Perfasciity所说的“深度研究”与思考。除了不是“Deep Research”而是“Deep Search”（叹气）。可以对您可以想象在互联网文章中得到答案的各种研究/查找问题产生高质量的回答，例如我尝试过的一些问题，这是我从最近在Perplexity上的搜索历史中窃取的，以及它是如何进行的：

-✅"即将到来的Apple发布会怎么了？有什么谣言吗？

-✅"为什么Palantir的股票最近飙升？

-✅"《白莲花3》是在哪里拍摄的，它与第1季和第2季是同一个团队吗？

-✅"布莱恩·约翰逊用什么牙膏？

-❌"Singles Inferno第4季演员阵容他们现在在哪里？

-❌"Simon Willison提到他正在使用什么语音转文本程序？

❌我确实在这里找到了一些锋利的边缘。例如，默认情况下，模型似乎不喜欢引用X作为源，尽管你可以明确要求它这样做。有几次我发现它产生了不存在的URL的幻觉。有几次它说了我认为不正确的事实，并且没有提供引用（它可能不存在）。例如，它告诉我“金正洙仍在与单身地狱第4季的金敏雪约会”，这肯定是完全不对的，对吧？当我要求它创建一份关于主要LLM实验室及其总资金金额和员工人数估计的报告时，它列出了12个主要实验室，但没有列出自己（xAI）。

我对DeepSearch的印象是，它大约在Perplexity DeepResearch产品附近（这很棒！），但还没有达到OpenAI最近发布的“Deep Research”的水平，它仍然感觉更彻底和可靠（尽管仍然远非完美，例如，当我尝试使用xAI时，它也相当错误地将xAI排除为“主要LLM实验室”......

随机LLM“gotcha”s

我尝试了更多有趣/随机的LLM陷阱查询，我喜欢时不时地尝试。陷阱是特别适合人类的查询，但对LLM来说却是困难的，所以我很好奇Grok 3在哪些方面取得了进展。

✅Grok 3知道“strawberry”中有3个“r”，但随后它也告诉我LOLLAPALOOZA中只有3个“L”。开启思考解决了这个问题。

✅Grok 3告诉我9.11 > 9.9。（在其他LLM中也很常见），但同样，打开Thinking可以解决这个问题。

✅
即使不思考，也很少有简单的谜题也能正常工作，例如*“Sally（一个女孩）有3个兄弟。每个兄弟都有2个姐妹。莎莉有多少个姐妹？*.例如，GPT4o显示2（错误）。

❌遗憾的是，这位模特的幽默感似乎并没有明显提高。这是一个常见的LLM问题，具有幽默能力和一般模式崩溃，众所周知，例如，在1,008个要求ChatGPT开玩笑的输出中，有90%是相同的25个笑话的重复。即使从简单的双关语领域（例如，给我一个站立）更详细地提示，我也不确定这是否是最先进的幽默。生成的笑话示例：“*为什么鸡加入了乐队？因为它有鼓槌，想成为一个咯咯笑的明星！在快速测试中，思考没有帮助，可能它使情况变得更糟。

❌Model似乎仍然对“复杂的道德问题”过于敏感，例如，生成了一篇1页的文章，基本上拒绝回答如果这意味着拯救100万人免于死亡，那么对某人进行性别错误在道德上是否合理。

❌Simon Willison的“*生成骑自行车的鹈鹕的SVG*”。它强调LLM在2D网格上布置许多元素的能力，这非常困难，因为LLM不能像人那样“看到”，所以它在黑暗中以文本的形式排列事物。标记为失败是因为这些鹈鹕很好，但仍然有点破（见图片和比较）。Claude的是最好的，但我认为我怀疑他们在训练期间专门针对SVG功能。

总结

就今天早上~2小时的快速氛围检查而言，Grok 3 + Thinking感觉与OpenAI最强大的模型（o1-pro，200美元/月）的作品领域相差无几，略好于DeepSeek-R1和Gemini 2.0 Flash Thinking。考虑到团队在~1年前从头开始，这真是太不可思议了，这个达到最先进领域的时间是前所未有的。还要记住注意事项-这些模型是随机的，每次可能会给出略有不同的答案，而且现在还为时过早，因此我们将不得不在接下来的几天/几周内等待更多的评估。LM竞技场的早期结果看起来确实相当令人鼓舞。现在，非常祝贺xAI团队，他们显然拥有巨大的速度和动力，我很高兴将Grok 3添加到我的“LLM委员会”中，并听取它对未来的看法。