OpenAI 员工对 xAI 表示疑虑:Grok 3 的基准测试结果可能引发误解和误导

近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。

事件的起因是 xAI 在其博客上发布了一张图表,展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑,但它仍然被广泛用来评估模型的数学能力。

xAI 的图表显示,Grok3的两个变体 ——Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的表现上超过了 OpenAI 当前最佳模型 o3-mini-high。然而,OpenAI 的员工很快指出,xAI 的图表没有包含 o3-mini-high 在 AIME2025上以 “cons@64” 计算的分数。

QQ_1740367365318.png

那么,什么是 cons@64呢?它是 “consensus@64” 的缩写,简单来说,它给模型提供64次尝试回答每个问题的机会,并将生成答案中最常见的答案作为最终答案。可以想象,cons@64的评分机制会显著提升模型的基准分数,因此如果在图表中省略这一数据,可能会让人误以为一个模型的表现超过了另一个模型,但实际上情况并非如此。

Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的 “@1” 分数,即模型首次尝试获得的分数,实际上低于 o3-mini-high 的分数。而 Grok3Reasoning Beta 的表现也略逊于 OpenAI 的 o1模型。尽管如此,xAI 仍将 Grok3宣传为 “世界上最聪明的 AI”。

巴布申金在社交媒体上回应称,OpenAI 过去也发布过类似的误导性基准图表,主要是对比自身模型的表现。而一位中立的专家则将各种模型的表现整理成一张更 “准确” 的图表,引发了更广泛的讨论。

QQ_1740367567952.png

此外,AI 研究者纳森・兰伯特指出,一个更为重要的指标却仍然不明朗:各模型取得最佳分数所需的计算(和财务)成本。这也表明,当前大多数 AI 基准测试所传达的信息对于模型的局限性及其优势仍显得有限。

划重点:

🔍 xAI 与 OpenAI 之间关于 Grok3基准测试结果的争论引发广泛关注。  

📊 xAI 的图表未包含 OpenAI 模型的关键评分指标 “cons@64”,可能导致误导。  

💰 AI 模型表现的背后,计算和财务成本仍然是一个未解之谜。  

猜你喜欢

中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力
中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力

在现代职场环境中,领导者的影响力往往超越个人的成就,展现团队的成功才是衡量杰出管理者的重要标准。中字hd的丈夫作为行业中的佼佼者,其

外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计
外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计

电子游戏作为一种新兴的艺术形式,近年来迅速崛起,成为全球文化现象的重要组成部分。从早期的像素艺术到如今的高清3D画面,游戏的视觉效果

《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法
《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法

在当今快节奏的生活中,社交游戏已经成为一种新兴的娱乐方式,尤其是那些能够引发思考与交流的游戏更是备受玩家青睐。《老公请部长家里吃饭

亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)
亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)

在今天的数字时代,游戏不仅仅是消遣娱乐的工具,它更是一个深蕴文化和情感的载体。从简单的图形和音效演变为如今复杂的多维度世界,游戏的

春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界
春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界

在第30个世界读书日即将到来之际,南通市崇川区举办了一场别开生面的全民阅读推广活动,为春日阅读增添了一抹独特的色彩。4月

圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾
圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾

在东方园林艺术的璀璨星河中,18世纪的圆明园无疑是最为耀眼的明珠之一。而提及圆明园,便不得不提清代画家陈枚的杰出作品——

常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境
常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境

在当代国画艺术的璀璨星河中,常波以其“鸿运当头鲤鱼”系列作品脱颖而出,犹如一颗耀眼的星辰,以其深厚的文化底蕴和独特的艺术

放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织
放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织

在欣赏艺术品的微妙之处时,细节往往成为决定作品成败的关键。尤其是名画,其细节不仅体现了艺术家的匠心独运,还往往隐藏着背后

华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇
华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇

在书法艺术的浩瀚星空中,又一颗璀璨之星悄然升起。华一民,这位来自江苏无锡却在浙江杭州诞生的艺术家,如今在重庆南岸区安享晚

瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力
瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力

瑞安春色正浓,踏青赏花正当时。这座位于东南沿海的城市,因其温润的气候和充沛的雨水,孕育了众多奇花异卉,成为春日里一道亮丽