OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

IT之家2月23日消息，本周，OpenAI的一名员工公开指责埃隆・马斯克旗下的xAI公司，称其发布的最新AI模型Grok3的基准测试结果具有误导性。对此，xAI的联合创始人伊戈尔・巴布什金（IgorBabushkin）则坚称公司并无不当。

xAI在其博客上发布了一张图表，展示了Grok3在AIME2025（一项近期邀请制数学考试中的高难度数学题集）上的表现。尽管一些专家质疑AIME作为AI基准的有效性，但AIME2025及其早期版本仍被广泛用于评估模型的数学能力。

IT之家注意到，xAI的图表显示，Grok3的两个版本——Grok3ReasoningBeta和Grok3miniReasoning——在AIME2025上的表现超过了OpenAI当前最强的可用模型o3-mini-high。然而，OpenAI的员工很快在X平台上指出，xAI的图表并未包含o3-mini-high在“cons@64”条件下的AIME2025得分。

“cons@64”是指“consensus@64”，即允许模型在基准测试中对每个问题尝试64次，并将出现频率最高的答案作为最终答案。可想而知，这种方式往往会显著提升模型的基准测试分数，如果图表中省略这一数据，就可能让人误以为某个模型的表现优于另一模型，而实际情况未必如此。

在AIME2025的“@1”条件下（即模型首次尝试的得分），Grok3ReasoningBeta和Grok3miniReasoning的得分低于o3-mini-high。Grok3ReasoningBeta的表现也略低于OpenAI的o1模型在“中等计算”设置下的得分。然而，xAI仍在宣传Grok3为“世界上最聪明的AI”。

巴布什金在X平台上辩称，OpenAI过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。