立体几何作为大模型中的“拦路虎”,SolidGeo 基准助力 AI 突破空间推理的极限挑战!

在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。

与传统的平面几何相比,立体几何的复杂性在于它需要理解三维结构及其空间关系。这不仅要求模型具备高水平的空间推理能力,还要能够整合视觉与文本信息。SolidGeo 的数据集包含3113个高质量的立体几何问题,这些问题来源于 K-12教育和高中数学竞赛,每道题目都配有图像和详细的解答说明,确保了数据的真实性与可靠性。

image.png

在对26个主流多模态模型进行的实验中,结果显示,当前最强的 OpenAI-o1模型在 SolidGeo 测试中的准确率仅为49.5%,与人类的77.5% 相比,仍有明显差距。其他模型的表现也不容乐观,许多开源模型的得分均低于30%。尤其在复杂的立体几何任务中,模型的表现更是大打折扣。例如,在涉及平面折叠与展开等任务时,OpenAI-o1的准确率仅为36.1%。相较之下,某些模型在特定难度的任务上却意外表现出色,这可能表明它们在处理简单问题时的泛化能力不足。

image.png

该研究还深入分析了模型在不同提示策略、题目难度和推理效率上的表现差异,发现大多数模型在任务难度增加时准确率显著下降。而推理效率则常常因为输出过长而降低,造成 “过度思考” 现象,这给 AI 的实际应用带来了挑战。

SolidGeo 的推出,不仅为 AI 模型在立体几何推理方面提供了新的评测标准,更是推动了多模态模型在空间智能领域的进一步探索。随着大模型能力的提升,如何在立体几何等复杂领域实现突破,将成为研究者们未来的重要任务。

猜你喜欢

梦幻新诛仙采集奇遇的触发条件与具体位置详解有哪些
梦幻新诛仙采集奇遇的触发条件与具体位置详解有哪些

在梦幻新诛仙中有不少的奇遇任务,这些奇遇都分布在不同的地方,玩家触发后就可以玩了,那么采集奇遇怎么触发?下面就来看看吧!

最终幻想16火之吐息热浪饰品隐藏任务触发方法攻略全面解析
最终幻想16火之吐息热浪饰品隐藏任务触发方法攻略全面解析

最终幻想16火之吐息热浪饰品隐藏任务触发教程

一念逍遥祈愿灵木活动详情介绍及具体奖励内容和玩法解析
一念逍遥祈愿灵木活动详情介绍及具体奖励内容和玩法解析

一念逍遥即将于7月24日开启新的活动,也就是祈愿灵木活动,在活动中有不少的奖励,想知道祈愿灵木活动内容的就来看看吧!一念

薄暮传说:终极版全地图探险与隐藏宝箱收集详尽指南
薄暮传说:终极版全地图探险与隐藏宝箱收集详尽指南

薄暮传说:终极版全流程地图探索与宝箱收集指南

超级精灵手表大舌幽灵的性能评测及获取方法解析
超级精灵手表大舌幽灵的性能评测及获取方法解析

在超级精灵手表中有很多的精灵,每位精灵都有自己的特色,大舌幽灵就是其中之一,那么大舌幽灵怎么获得?下面就来看看吧!超级精

江南百景图狄仁杰活动中隐藏的奖励有哪些?如何获得狄仁杰活动的全部奖励?
江南百景图狄仁杰活动中隐藏的奖励有哪些?如何获得狄仁杰活动的全部奖励?

江南百景图狄仁杰活动已经上线了,在活动中有很多的玩法和奖励,玩家参与活动有机会可以获取,那么狄仁杰活动有哪些隐藏奖励?下

僵尸灾难下的团队协作逃生:分工配合确保成员安全有效撤退
僵尸灾难下的团队协作逃生:分工配合确保成员安全有效撤退

僵尸毁灭工程团队协作跑路:分工配合实现群体安全撤离

灵魂潮汐2-6关卡通关攻略 适合2-6挑战的推荐阵容解析
灵魂潮汐2-6关卡通关攻略 适合2-6挑战的推荐阵容解析

在灵魂潮汐中有不少的关卡,每个章节都有一些小关卡,2-6是第二章中的第6个小关卡,是比较难的,那么2-6如何通关?下面

堕落之主蔷薇戒指的隐藏属性详尽解析与深度分析
堕落之主蔷薇戒指的隐藏属性详尽解析与深度分析

堕落之主蔷薇戒指隐藏属性全解析

《天龙八部》宠物提升到优质水平的实用技巧与全方位攻略解析
《天龙八部》宠物提升到优质水平的实用技巧与全方位攻略解析

天龙八部的宠物在战斗中作用很大,它们的技能可以提高主人的攻击和防御。在选择宠物的时候也有很多差异,因为宠物在获取的时候有