埃隆.马斯克的xAI大模型Grok3发布及性能评估

埃隆马斯克超人形象:X推特强势媒体及集新能源电车、星链和空间探索SpaceX,DOG,火星人等等。xAI大模型Grok3x内部产品代码“巧克力”)性能究竟如何,由于不能实测使用,也没有技术论文报告,且Grok3OpenAI o1/o3一样闭源,目前只能借助第三方评估机构如Imarena、AI大神卡帕西的评价及xAI自己发布的数据来分享。仅仅听厂家、名人和评估机构还不够,实际要等未来的使用和国内能够访问,当下建议还是先用DeepSeek v3/R1吧,这个就在手边好用。但是需要眼神盯着Grok3产品的进展。

目录

1花絮:XAI与OPENAI发布会对比

2XAI自己的性能评价

3第三方LMARENA评估

4安德烈.卡帕西 GROK3测试评价

1 Grok3发布花絮:xAIOpenAI发布会对比

先来点有趣的。

埃隆.马斯克的xAI大模型Grok3发布及性能评估

OpenAI CEOo1/o3发布会比较安宁祥和,就是感觉在客厅,灯光比较温暖。xAI的背景是黑色的宇宙太空,无比深奥,想象远处是火星。从产品角度OpenAI更现实,xAI更遥远。共同点都是闭源,都是会员订阅付费制。

1AI科技发布会都有共性。CEO创始人必须出镜登场,描绘产品的未来蓝图。山姆喜欢在左面出现(Left),埃隆喜欢右面出现(Right

2)必须四人组合(F4),多不好记,少了不对称。

3)发布会F4组合必须有华人AI工程师面孔,表示这个团队和产品具有高超智慧、能干、勤奋产品形象。都是DeepSeek给逼的。

埃隆.马斯克的xAI大模型Grok3发布及性能评估

2  xAI自己的性能评价

1)大语言模型版本。Grok3OpenAIo1,o3及谷歌的Gemini-2 pro, Anthropic Sonnet,DeepSeek v3基准对比。

埃隆.马斯克的xAI大模型Grok3发布及性能评估

埃隆.马斯克的xAI大模型Grok3发布及性能评估

2)推理版本。Grok3 Reasoning Beta版本与DeepSeek – R1OpenAIo1,o3及谷歌的Gemini-2 Flash Thinking对比。

埃隆.马斯克的xAI大模型Grok3发布及性能评估

3  第三方lmarena评估

1)通用对比。

埃隆.马斯克的xAI大模型Grok3发布及性能评估

埃隆.马斯克的xAI大模型Grok3发布及性能评估

2)编程对比。

埃隆.马斯克的xAI大模型Grok3发布及性能评估

埃隆.马斯克的xAI大模型Grok3发布及性能评估

埃隆.马斯克的xAI大模型Grok3发布及性能评估

数据:https://lmarena.ai/?leaderboard

4AI大神安德烈.卡帕西Grok3测试评价

思考

可以看出,Grok3还可以,但是也有不足。


首先,Grok 3显然有一个最先进的思维模型(思考按钮),并且在我的卡坦岛定居者问题上做得很好:

创建一个显示六边形网格的棋盘游戏网页,就像在游戏Settlers of Catan中一样。每个六边形网格从1..N开始编号,其中N是六边形图块的总数。让它通用,这样就可以使用滑块来改变“ring”的数量。例如,在Catan中,半径为3个六角形。请提供单个html页面。

很少有模型能可靠地做到这一点。顶级OpenAI思维模型(例如o1-pro,每月200美元)也能获得它,但DeepSeek-R1Gemini 2.0 Flash ThinkingClaude都没有。

它没有解决我的表情符号之谜问题,即我给出一个笑脸,并在Unicode变体选择器中隐藏了一条附加消息,即使我以Rust代码的形式给出了有关如何解码它的强烈提示。我见过的最大的进步来自DeepSeek-R1,它曾经部分解码了消息。

它解决了我给它的一些井字棋盘,思维链相当不错/干净(许多SOTA模型经常失败!所以我提高了难度并要求它生成3棘手的井字棋盘,它失败了(生成无意义的棋盘/文本),但后来o1 pro也这样做了。

上传了GPT-2论文。我问了一堆简单的查找问题,都效果很好。然后要求估计训练GPT-2所需的训练失败次数,无需搜索。这很棘手,因为标记的数量没有拼写出来,所以必须部分估计和部分计算,强调所有的查找、知识和数学。一个例子是40GB的文本~= 40B字符~= 40B字节(假设ASCII~= 10B令牌(假设~4字节/tok),在~10个时期~= 100B令牌训练运行,在1.5B参数和2+4=6个浮点运算/参数/令牌时,这是100e9 X 1.5e9 X 6 ~= 1e21 FLOPsGrok 34o都无法完成这项任务,但带有ThinkingGrok 3很好地解决了它,而o1 proGPT思维模型)则失败了。

我喜欢这个模型在被要求时**尝试解决黎曼假设,类似于DeepSeek-R1,但与许多其他立即放弃的模型(o1-proClaudeGemini 2.0 Flash Thinking)不同,简单地说这是一个巨大的未解决的问题。我最终不得不停止它,因为我为它感到有点难过,但它显示了勇气,谁知道呢,也许有一天......

我在这里得到的总体印象是,这大约是o1-pro的能力,领先于DeepSeek-R1,尽管我们当然需要实际的、真实的评估来查看。

DeepSearch

非常简洁的产品,似乎结合了OpenAI / Perfasciity所说的深度研究与思考。除了不是“Deep Research”而是“Deep Search”(叹气)。可以对您可以想象在互联网文章中得到答案的各种研究/查找问题产生高质量的回答,例如我尝试过的一些问题,这是我从最近在Perplexity上的搜索历史中窃取的,以及它是如何进行的:

-"即将到来的Apple发布会怎么了?有什么谣言吗?

-"为什么Palantir的股票最近飙升?

-"《白莲花3》是在哪里拍摄的,它与第1季和第2季是同一个团队吗?

-"布莱恩·约翰逊用什么牙膏?

-"Singles Inferno4季演员阵容他们现在在哪里?

-"Simon Willison提到他正在使用什么语音转文本程序?

确实在这里找到了一些锋利的边缘。例如,默认情况下,模型似乎不喜欢引用X作为源,尽管你可以明确要求它这样做。有几次我发现它产生了不存在的URL的幻觉。有几次它说了我认为不正确的事实,并且没有提供引用(它可能不存在)。例如,它告诉我金正洙仍在与单身地狱第4季的金敏雪约会,这肯定是完全不对的,对吧?当我要求它创建一份关于主要LLM实验室及其总资金金额和员工人数估计的报告时,它列出了12个主要实验室,但没有列出自己xAI)。

我对DeepSearch的印象是,它大约在Perplexity DeepResearch产品附近(这很棒!),但还没有达到OpenAI最近发布的“Deep Research”的水平,它仍然感觉更彻底和可靠(尽管仍然远非完美,例如,当我尝试使用xAI时,它也相当错误地将xAI排除为主要LLM实验室”......

随机LLM“gotcha”s

我尝试了更多有趣/随机的LLM陷阱查询,我喜欢时不时地尝试。陷阱是特别适合人类的查询,但对LLM来说却是困难的,所以我很好奇Grok 3在哪些方面取得了进展。

Grok 3知道“strawberry”中有3“r”,但随后它也告诉我LOLLAPALOOZA中只有3“L”。开启思考解决了这个问题。

Grok 3告诉我9.11 > 9.9。(在其他LLM中也很常见),但同样,打开Thinking可以解决这个问题。


即使不思考,也很少有简单的谜题也能正常工作,例如*“Sally(一个女孩)有3个兄弟。每个兄弟都有2个姐妹。莎莉有多少个姐妹?*.例如,GPT4o显示2(错误)。

遗憾的是,这位模特的幽默感似乎并没有明显提高。这是一个常见的LLM问题,具有幽默能力和一般模式崩溃,众所周知,例如,在1,008个要求ChatGPT开玩笑的输出中,有90%是相同的25个笑话的重复。即使从简单的双关语领域(例如,给我一个站立)更详细地提示,我也不确定这是否是最先进的幽默。生成的笑话示例:“*为什么鸡加入了乐队?因为它有鼓槌,想成为一个咯咯笑的明星!在快速测试中,思考没有帮助,可能它使情况变得更糟。

Model似乎仍然对复杂的道德问题过于敏感,例如,生成了一篇1页的文章,基本上拒绝回答如果这意味着拯救100万人免于死亡,那么对某人进行性别错误在道德上是否合理。

Simon Willison“*生成骑自行车的鹈鹕的SVG*”。它强调LLM2D网格上布置许多元素的能力,这非常困难,因为LLM不能像人那样看到,所以它在黑暗中以文本的形式排列事物。标记为失败是因为这些鹈鹕很好,但仍然有点破(见图片和比较)。Claude的是最好的,但我认为我怀疑他们在训练期间专门针对SVG功能。

总结

就今天早上~2小时的快速氛围检查而言,Grok 3 + Thinking感觉与OpenAI最强大的模型(o1-pro200美元/月)的作品领域相差无几,略好于DeepSeek-R1Gemini 2.0 Flash Thinking。考虑到团队在~1年前从头开始,这真是太不可思议了,这个达到最先进领域的时间是前所未有的。还要记住注意事项-这些模型是随机的,每次可能会给出略有不同的答案,而且现在还为时过早,因此我们将不得不在接下来的几天/几周内等待更多的评估。LM竞技场的早期结果看起来确实相当令人鼓舞。现在,非常祝贺xAI团队,他们显然拥有巨大的速度和动力,我很高兴将Grok 3添加到我的“LLM委员会中,并听取它对未来的看法。

埃隆.马斯克的xAI大模型Grok3发布及性能评估

埃隆.马斯克的xAI大模型Grok3发布及性能评估

版权声明:charles 发表于 2025年2月19日 pm1:50。
转载请注明:埃隆.马斯克的xAI大模型Grok3发布及性能评估 | AI工具大全&导航

相关文章