OpenAI o3 模型测试结果受到质疑,实际性能显著低于市场宣传所述水平

近日,OpenAI 推出的 o3人工智能模型在基准测试中的表现引发了广泛争议。尽管 OpenAI 在去年12月首次发布 o3时自信地宣称该模型在极具挑战性的 FrontierMath 数学问题集上能够正确回答超过四分之一的问题,但这一声称与最近的独立测试结果形成鲜明对比。

Epoch 研究所对 o3模型进行了独立测试,结果显示该模型的实际得分仅为10%,远低于 OpenAI 之前所宣称的25%。在 OpenAI 首席研究官 Mark Chen 的公开演示中,他表示 o3模型的内部测试结果十分优秀,远超竞争对手,后者在同一问题集上的正确率不足2%。然而,这个理想化的高分数可能是通过使用更强大计算资源的 o3版本实现的,而并非是上周正式发布的版本。

OpenAI,ChatGPT,人工智能,AI

Epoch 在其报告中指出,测试结果的差异可能源于多种因素,包括 OpenAI 使用了更先进的计算框架和不同的测试条件。同时,该机构也提到,他们的评估是基于更新版本的 FrontierMath,这可能导致结果的不同。

此外,ARC Prize 基金会也发表声明,表示公开发布的 o3模型与他们早前测试的预发布版本有很大不同,公开版经过了针对聊天和产品使用的调整,且计算层级普遍较小。通常情况下,计算层级越大,基准测试得分越好。

虽然 o3模型未能完全达到 OpenAI 的测试标准,但这似乎并不影响其市场表现,因为 OpenAI 最近推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上已表现得更为出色。更令人期待的是,OpenAI 将在不久后推出更强大的 o3版本 ——o3-pro。

此次事件再一次警示公众,AI 基准测试的结果不应被完全信任,尤其是来自于有产品推出压力的公司。在竞争激烈的 AI 行业中,各大厂商为了争夺市场份额,往往急于推出新模型,而这也使得基准测试的争议日益增多。

猜你喜欢

四川少女-B站-2023:青春风采与网络文化的碰撞,探索新的自我表达方式
四川少女-B站-2023:青春风采与网络文化的碰撞,探索新的自我表达方式

当2023年踏入新的篇章,四川的青少年以其独特的个性与创造力,在B站这一广受欢迎的平台上绽放耀眼的光芒。B站作为一个聚集了无数年轻人的平

多人运动罗志祥:激情与挑战交织的演绎之路
多人运动罗志祥:激情与挑战交织的演绎之路

多人运动罗志祥者,华夏间一代风华之翘楚,既才艺横溢,亦性情奔放,善于于众人共舞于热血之中。其演绎之旅,犹如一场绚丽之盛宴,激励无数

色系视频:探索色彩之间的魅力,揭示色彩对情感的深刻影响
色系视频:探索色彩之间的魅力,揭示色彩对情感的深刻影响

色彩的世界宛如一幅永不褪色的画卷,它以独特的方式影响着我们的情绪与感知。人们在日常生活中,对于色彩的选择往往不仅仅是为了美观,更是

小蜜桃:甜美滋味背后的营养价值与健康功效探秘
小蜜桃:甜美滋味背后的营养价值与健康功效探秘

小蜜桃乃水果之中的翘楚,其色泽粉红,果肉柔嫩,味道甘甜且清香扑鼻。小蜜桃为人所喜,其果汁四溢,堪称夏日之佳品。然其背后之营养与健康

金铲铲之战保镖学者阵容玩法攻略及组合技巧分享
金铲铲之战保镖学者阵容玩法攻略及组合技巧分享

金铲铲之战保镖学者这个阵容是后期比较强的,这个阵容的主要C位是大头黑默丁格,而玩家是可以选择用约德尔这个羁绊进行过渡的,

如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解
如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解

幻塔游戏中的料理很多,而蕨菜饼就是游戏中的料理之一,蕨菜饼可以让角色恢复一定的生命值,能够帮助玩家解决生命值低的问题,下

幻塔坚果茶的制作方法及其对健康的多重效果分析
幻塔坚果茶的制作方法及其对健康的多重效果分析

幻塔坚果茶是游戏中拥有回复血量作用的料理之一,坚果茶所需要的食材一共有三种,这三种都是比较稀有的食材,下面91小编带来幻

幻塔意志选择攻略:如何搭配意志才能取得最佳效果
幻塔意志选择攻略:如何搭配意志才能取得最佳效果

幻塔意志在游戏中是非常重要的,好的意志搭配可以让玩家提升很大的战力,意志主要的选择是金色和紫色,下面91小编带来幻塔意志

如何获得幻塔旅行者号外壳的详细攻略与获取途径
如何获得幻塔旅行者号外壳的详细攻略与获取途径

幻塔旅行者号外壳是游戏中载具的零件之一,这款载具外形还是非常好看的,很多玩家都想要入手这个旅行者号外壳,下面91小编带来

哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享
哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享

哈利波特魔法觉醒雪球大乱斗卡组是比较难搭配的,这个卡组的主要卡牌是飞沙走石,卡牌的强度不低获取也是比较容易的,下面91小