1. 主页 > 社会焦点

OpenAI 员工公开指责 xAI:Grok 3 基准测试结果具有误导性

IT之家2月23日消息,本周,OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司,称其发布的最新AI模型Grok3的基准测试结果具有误导性。对此,xAI的联合创始人伊戈尔・巴布什金(IgorBabushkin)则坚称公司并无不当。

xAI在其博客上发布了一张图表,展示了Grok3在AIME2025(一项近期邀请制数学考试中的高难度数学题集)上的表现。尽管一些专家质疑AIME作为AI基准的有效性,但AIME2025及其早期版本仍被广泛用于评估模型的数学能力。

IT之家注意到,xAI的图表显示,Grok3的两个版本——Grok3ReasoningBeta和Grok3miniReasoning——在AIME2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而,OpenAI的员工很快在X平台上指出,xAI的图表并未包含o3-mini-high在“cons@64”条件下的AIME2025得分

“cons@64”是指“consensus@64”,即允许模型在基准测试中对每个问题尝试64次,并将出现频率最高的答案作为最终答案。可想而知,这种方式往往会显著提升模型的基准测试分数,如果图表中省略这一数据,就可能让人误以为某个模型的表现优于另一模型,而实际情况未必如此。

在AIME2025的“@1”条件下(即模型首次尝试的得分),Grok3ReasoningBeta和Grok3miniReasoning的得分低于o3-mini-high。Grok3ReasoningBeta的表现也略低于OpenAI的o1模型在“中等计算”设置下的得分。然而,xAI仍在宣传Grok3为“世界上最聪明的AI”。

巴布什金在X平台上辩称,OpenAI过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。

在这场争议中,一位中立的第三方重新绘制了一张更为“准确”的图表:

但正如AI研究员内森・兰伯特(NathanLambert)在一篇文章中指出的,或许最重要的指标仍然未知:每个模型达到最佳分数所需的计算(和金钱)成本。这恰恰表明,大多数AI基准测试在传达模型的局限性和优势方面仍然存在很大的不足。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com

本文链接:https://jinnalai.com/jiaodian/731846.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息