推理AI模型基准测试费用暴涨:一个评估的成本或接近3000美元

根据第三方AI测试机构Artificial Analysis的数据,评估OpenAI的o1推理模型在七种流行基准测试上需花费2,767.05美元,而其非推理模型GPT-4o仅需108.85美元。这一显著差异引发了关于AI评估可持续性和透明度的讨论。

推理模型,即能够逐步"思考"问题解决方案的AI系统,虽然在特定领域表现出色,但其基准测试成本远高于传统模型。Artificial Analysis评估约十几个推理模型总计花费了5,200美元,几乎是分析80多个非推理模型花费(2,400美元)的两倍。

机器人 人工智能  AI

图源备注:图片由AI生成,图片授权服务商Midjourney

成本差异主要源于推理模型生成的大量标记。例如,o1在测试中生成了超过4400万个标记,约为GPT-4o的八倍。随着基准测试越来越复杂,评估现实世界任务的能力,加上顶级模型每单位标记成本的上涨(如OpenAI的o1-pro每百万输出标记收费600美元),独立验证这些模型性能变得极其昂贵。

尽管一些AI实验室为基准测试机构提供免费或补贴访问,但专家担忧这可能损害评估的客观性。General Reasoning的CEO Ross Taylor质疑:"从科学角度看,如果你发表了一个没人能用相同模型复制的结果,那它还能算是科学吗?"

猜你喜欢

盛开的艺术之花,贾广健带领大家深入探访曹州书画院的魅力与风采
盛开的艺术之花,贾广健带领大家深入探访曹州书画院的魅力与风采

在菏泽,一场围绕牡丹展开的艺术研学活动圆满落幕,此次活动由中国美术报社策划,携手曹州书画院与巨野县书画院共同呈现。活动聚

如何制作高票房电影:票房大卖王的成功拍摄之道与经验分享
如何制作高票房电影:票房大卖王的成功拍摄之道与经验分享

在票房大卖王这款游戏中,玩家将扮演一位电影制片人,通过选择剧本、招募演员、安排拍摄等一系列流程,最终制作出一部电影并期待

天价画作引发热议:售价8050万元的作品究竟是艺术的巅峰之作还是对现实的简单重现?
天价画作引发热议:售价8050万元的作品究竟是艺术的巅峰之作还是对现实的简单重现?

在2021年的春季,一场引人瞩目的艺术盛宴在嘉德“当代艺术夜场”拍卖会上演,一件画作以惊人的8050万元天价成交,瞬间震

鸣潮2.3版本前瞻特别通讯将于4月19日隆重播出,敬请期待精彩内容
鸣潮2.3版本前瞻特别通讯将于4月19日隆重播出,敬请期待精彩内容

《鸣潮》2 3版本是周年庆版本,活动数量异常丰富,预计有23个活动。《鸣潮》2 3版本前瞻特别通讯将于2025年4月19

在怪物猎人荒野中实现无限刷金技巧及方法解析,让你轻松积累财富
在怪物猎人荒野中实现无限刷金技巧及方法解析,让你轻松积累财富

在怪物猎人荒野这款游戏中,金资源对于玩家来说至关重要。它不仅可以用来购买装备、道具和材料,还可以用来提升角色的能力。因此

日本摄影大师镜头下女性之美的经典瞬间,感受那份动人的魅力你心动了吗?
日本摄影大师镜头下女性之美的经典瞬间,感受那份动人的魅力你心动了吗?

在日本摄影艺术领域,几位摄影大师以其独特的镜头语言,捕捉并定格了女性之美,这些作品超越了时间与空间的界限,成为不朽的艺术

你更倾向于追求修真、修魔还是追寻长生不老的修仙之路呢?
你更倾向于追求修真、修魔还是追寻长生不老的修仙之路呢?

在古老而神秘的东方文化中,修真、修魔与修仙的概念深入人心。这三种修行方式各有其独特的魅力和挑战,吸引着无数修炼者投身其中

欢乐对决新手玩家如何快速提升游戏水平与技巧的有效方法
欢乐对决新手玩家如何快速提升游戏水平与技巧的有效方法

在欢乐对决这款游戏中,核弹作为终极武器,其强大的威力让每位玩家都渴望掌握。首先,你需要熟悉核弹的基本操作,包括如何放置、

PGL克卢日-纳波卡-2025首日总结:FaZe战队与蒙古队取得首场胜利
PGL克卢日-纳波卡-2025首日总结:FaZe战队与蒙古队取得首场胜利

PGL克卢日-纳波卡 2025正式开赛,在首日比赛中,MOUZ、3DMAX、FaZe、Falcons、Mongolz、W

郭沫若为何为蒲松龄故居撰写对联,其书法造诣为何达到如此惊人的境界?
郭沫若为何为蒲松龄故居撰写对联,其书法造诣为何达到如此惊人的境界?

近日,一幅由郭沫若题写的对联引发了广泛关注和赞誉。这幅对联以其精妙的内容和卓越的书法水平,成为了文学与书法爱好者们热议的