1. 主页 > 社会焦点

马斯克的Grok 3发布|“地球上最聪明的人工智能”性能如何?

近期马斯克高调宣布推出Grok 3。这个被马老师称为“地球上最聪明的人工智能”是否名副其实呢?

从马斯克放出的测试图(数学、科学、代码)可以看出Grok3有四个版本:

分别是Grok-3、Grok-3 mini、Grok-Reasoning Beta和Grok-3 Reasoning mini。

其中Grok-3和Grok-3 mini是传统模型,Benchmark分别对标GPT-4oDeepSeek V3

Grok-Reasoning Beta和Grok-3 Reasoning mini是最新的推理模型,benchmark分别对标OpenAI o1/o3DeepSeek R1

从基座测试结果来看,Grok-3的得分领先于DeepseekR1和Open AI的O1/O3mini,但差距并非很大。

马斯克这次可能是被迫应战,而且是xAI拿20万张GPU卡训出来的模型,除了基座测试分数之外,并无其他令人震撼的地方。

所以对比起Deepseek的训练成本,这款雄心勃勃的产品有点“起了个大早,赶了个晚集”的感觉。

Grok 3可以为Scaling Laws强行续命,但是从性价比上看:Scaling Laws的ROI(投资回报比)太低。

这还是因为DeepSeek的惊艳,货比货得扔。

马斯克财大气粗,也不意味着可以无限砸钱,而且Grok3的路子感觉被OpenAI给带偏了,都有一股“算力垄断”的金融资本意味在里面。

回顾一下xAI的大模型路径:

2023年11月,xAI发布第一款大模型Grok-1。

2024年3月18日,xAI团队发布参数量高达3140亿的Grok-1模型,这一参数量远超OpenAI GPT-3.5的1750亿,成为当时参数量最大的开源大语言模型。

2024年8月,Grok 2大模型发布 。

Grok 2主要应用于训练AI聊天机器人。

与Grok 1相比,Grok 2在训练数据的使用上有所改进。

Grok 1在训练时未完全依赖真实世界数据,采用了大量合成数据,导致在处理真实世界中的细微差别和复杂性时表现欠佳。

Grok 2融入了少量高质量的真实世界数据,一定程度上弥补了初代模型在处理真实场景方面的不足。

Grok 3,其最大的特点在于引入了“思维链”(Chain Of Thought)推理能力。该能力让Grok 3能够像人类认知过程一样逐步处理复杂任务,显著提高了模型处理复杂查询和提供更连贯、更有逻辑的响应的能力。

(眼熟不。DeepSeek R1已经具备这个能力。)

Grok 3模型在推理、编程能力以及文本和图像分析等多模态功能方面有了显著的提升。

2024年中,马斯克高调宣布:Grok-3将依托10万张英伟达H100 GPU的超强算力进行训练,计划在2024年底推出,并称赞其 “将会是非常特别的”。

但实际上,2024年底Grok-3并没有推出,业内的说法是xAI团队规模小资源少,因此进展缓慢。但2024年底规模、资源比他们小得多的DeepSeekR1惊艳一击,异军突起,让国内外震惊之余,很多大型企业已经纷纷接入DeepSeek。

我们国内就不说了,美国的一些巨头都是第一时间接入,这直接倒逼了OpenAI不情不愿的迅速开源和Grok 3的快速(相对于2024年的延期)发布。

如果Grok-3在DeepSeekR1之前发布,市场上或许还能抢占一块巨额蛋糕,但目前的情况下,DeepSeekR1如黑马崛起,逐鹿天下,而Grok-3在堆砌资源的情况下姗姗来迟,AI领域格局已经完全改变,曾经是一家独霸天下的OpenAI也不得不紧跟DeepSeek的开源步伐。

而后来的Grok-3并没有奇点突变,也没有令人惊艳的质变,仅凭着雄厚身家训练出基座测试领先(仅仅是领先而非代差)的产品,恐怕很难再改变市场格局。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com

本文链接:https://jinnalai.com/jiaodian/730981.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息