多模态大模型在视觉推理能力评估中仅获25.8%得分,分析原因与影响因素

近日,由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V,专门针对多模态大模型的视觉推理能力进行测试。该基准的推出,旨在填补当前评估体系中对模型视觉输出能力的空白,以便更全面地了解现有模型的性能。

image.png

RBench-V 基准测试包含803道题目,涉及多个领域,包括几何与图论、力学与电磁学、多目标识别和路径规划等。与以往只要求文字回答的评估不同,这次评测特别要求模型生成或修改图像内容,以支持推理过程。这意味着,模型不仅需要理解问题,还需要像人类一样,通过绘制辅助线或观察图形结构来进行思考。

测试结果显示,即便是表现最好的 o3模型,在 RBench-V 上的准确率也仅为25.8%,远低于人类专家的82.3%。Google 的 Gemini2.5模型紧随其后,仅获得20.2% 的得分。更令人担忧的是,许多开源模型的准确率在8% 至10% 之间,甚至有些模型的表现接近随机作答。

image.png

RBench-V 的研究表明,当前的多模态大模型在处理复杂的几何问题时,往往采取了简化的策略。与人类通过直观的可视化方法进行思考不同,大部分模型更倾向于将图形问题抽象为代数表达,用文本推理代替真实的图像操作。这一现象反映出它们在深层理解图像信息上的不足。

研究团队指出,未来的模型需要在推理过程中主动生成图像,以帮助思考,才能真正实现 “类人智能”。他们提到,多模态思维链和智能体推理等新方法,可能是人工智能发展的一条重要路径。

如需了解更多信息,请访问项目主页: [RBench-V 项目主页](https://evalmodels.github.io/rbenchv/)。

划重点:  

🔍 研究团队联合发布 RBench-V,评估多模态大模型的视觉推理能力。  

📉 表现最好的 o3模型仅获25.8%,远低于人类82.3% 的准确率。  

🧩 当前模型在处理视觉问题时缺乏深层理解,需改进推理方式以推动智能发展。

猜你喜欢

宝可梦大探险中提升锅的技巧与方法指南,通过哪些途径可以快速升级锅
宝可梦大探险中提升锅的技巧与方法指南,通过哪些途径可以快速升级锅

在宝可梦大探险中锅是非常重要的,可以用来制作食谱,而且锅是有等级的,不同等级的锅有不同的作用,今天小编就来分享下锅升级

机动战姬聚变版本中哪些狗粮队长更具实力和适用性分析
机动战姬聚变版本中哪些狗粮队长更具实力和适用性分析

机动战姬聚变狗粮队长是可以让我们快速的进行狗粮的培养,那么机动战姬聚变狗粮队长怎么选呢?接下来就让我们一起来看看机动战姬

暗黑破坏神4死亡警告技能的冷却时间与收益效果全面深度解析
暗黑破坏神4死亡警告技能的冷却时间与收益效果全面深度解析

暗黑破坏神4死亡警告技能冷却与收益深度分析

独奏骑士500层攻略详解:如何顺利通关每一关卡
独奏骑士500层攻略详解:如何顺利通关每一关卡

在独奏骑士中爬塔是非常热门的一个玩法,也是小编自己最喜欢的,在这里有很多的关卡,500层就是其中一个关卡,今天小编就来

七日杀游戏中高效购物技巧——快速收集核心资源的最佳策略
七日杀游戏中高效购物技巧——快速收集核心资源的最佳策略

七日杀开局高效购物策略——核心物资快速获取

妄想山海中嘟噜噜噜噜的资质是否需要重点培养与提升?
妄想山海中嘟噜噜噜噜的资质是否需要重点培养与提升?

在妄想山海中有很多的宠物,嘟噜噜噜噜是游戏中新上线的一个宠物,这是一个万年宠物,非常可爱,今天小编就来分享下嘟噜噜噜噜

灵历十八年红色至尊戒值得购买吗?红色至尊戒的质量和价值究竟如何
灵历十八年红色至尊戒值得购买吗?红色至尊戒的质量和价值究竟如何

在灵历十八年中有不少的道具,红色至尊戒就是其中之一,也是游戏中价值比较高的,那么红色至尊戒性价比怎么样呢?下面就来看看吧

深宫曲器重的内涵与意义是什么?它在宫廷中的作用与影响有哪些?
深宫曲器重的内涵与意义是什么?它在宫廷中的作用与影响有哪些?

在深宫曲中有各种各样的数值,每个数值的作用都是不同的,器重就是其中之一,那么器重有什么用?想知道的就来看看吧!深宫曲器

探索蟹蟹寻宝的奇妙冒险:比波普杯壳子BOSS掉落解析及攻略
探索蟹蟹寻宝的奇妙冒险:比波普杯壳子BOSS掉落解析及攻略

蟹蟹寻宝奇遇比波普杯壳子BOSS掉落解析