Meta 推出 Multi-SpatialMLLM:开启多模态人工智能空间理解的新纪元

科技巨头 Meta 与香港中文大学的研究团队联合推出了 Multi-SpatialMLLM 模型,这一新框架在多模态大语言模型(MLLMs)的发展中取得了显著进展,尤其是在空间理解方面。该模型通过整合深度感知、视觉对应和动态感知三大组件,突破了以往单帧图像分析的限制,为更复杂的视觉任务提供了强有力的支持。

image.png

近年来,随着机器人和自动驾驶等领域对空间理解能力的需求不断增长,现有的 MLLMs 面临着诸多挑战。研究发现,现有模型在基础空间推理任务中表现不佳,例如,无法准确区分左右方向。这一现象主要源于缺乏专门的训练数据,且传统的方法往往只能基于静态视角进行分析,缺少对动态信息的处理。

为了解决这一问题,Meta 的 FAIR 团队与香港中文大学共同推出了 MultiSPA 数据集。该数据集覆盖了超过2700万个样本,涵盖多样化的3D 和4D 场景,结合了 Aria Digital Twin 和 Panoptic Studio 等高质量标注数据,并通过 GPT-4o 生成了多种任务模板。

此外,研究团队设计了五个训练任务,包括深度感知、相机移动感知和物体大小感知等,以此来提升 Multi-SpatialMLLM 在多帧空间推理上的能力。经过一系列测试,Multi-SpatialMLLM 在 MultiSPA 基准测试中的表现十分优异,平均提升了36%,在定性任务中的准确率也达到了80-90%,显著超越了基础模型的50%。尤其是在预测相机移动向量等高难度任务上,该模型也取得了18% 的准确率。

在 BLINK 基准测试中,Multi-SpatialMLLM 的准确率接近90%,平均提升了26.4%,超越了多个专有系统。而在标准视觉问答(VQA)测试中,该模型也保持了其原有的性能,显示了其在不依赖过度拟合空间推理任务的情况下,依然具有良好的通用能力。

划重点:

🌟 Meta 推出的 Multi-SpatialMLLM 模型显著提升了多模态大语言模型的空间理解能力。

📊 新模型通过整合深度感知、视觉对应和动态感知三大组件,克服了单帧图像分析的局限。

🏆 Multi-SpatialMLLM 在多项基准测试中表现优秀,准确率大幅提升,超越传统模型。

猜你喜欢

星露谷物语提升马匹移动速度的有效技巧与快速方法分享
星露谷物语提升马匹移动速度的有效技巧与快速方法分享

星露谷物语如何快速提升马匹移动速度

梦幻新诛仙孔雀姬如何打书及推荐孔雀姬打书攻略和书籍选择
梦幻新诛仙孔雀姬如何打书及推荐孔雀姬打书攻略和书籍选择

在梦幻新诛仙中有不少的灵宠,孔雀姬就是其中之一,也是游戏中非常强势的宝宝,那么孔雀姬打书什么比较好?想知道的就来本站了

《月神的迷宫》中白银卿角色的强弱分析及其在游戏中的实用性探讨
《月神的迷宫》中白银卿角色的强弱分析及其在游戏中的实用性探讨

在月神的迷宫中有非常多的角色,白银卿就是其中一个角色,这个角色定位是奶妈,那么白银卿要不要培养?下面就来看看吧!月神的

风暴之城空地利用规划与资源有效配置策略指南
风暴之城空地利用规划与资源有效配置策略指南

风暴之城空地开发策略与资源管理指南

豪杰成长计划中实现自立为王的条件和达成方法是什么
豪杰成长计划中实现自立为王的条件和达成方法是什么

在豪杰成长计划中有很多的玩法,其中一个就是自立为王,玩家可以自立为王,但是需要满足一定的条件,下面就来看看吧!豪杰成长

星空恶魔任务的全面收集技巧与成就达成指南
星空恶魔任务的全面收集技巧与成就达成指南

星空恶魔任务全收集与成就达成攻略

梦幻西游手游中的猫毛礼物详解及其在游戏中的多种用途汇总
梦幻西游手游中的猫毛礼物详解及其在游戏中的多种用途汇总

在梦幻西游手游中饲养猫猫可以获得一些猫毛,据说还可以做成可爱的礼物送给朋友,那么猫毛怎么获得?猫毛有什么用?下面小编就给

阴阳师解锁平安百物语见习鬼使需要哪些式神的配合及详细解锁流程
阴阳师解锁平安百物语见习鬼使需要哪些式神的配合及详细解锁流程

阴阳师用哪些式神才能解锁平安百物语见习鬼使成了我们很多玩家一个非常头疼的问题,那么大家知道阴阳师用哪些式神才能解锁平安百

泰拉瑞亚方块宠物召唤物品的全面属性分析与详解
泰拉瑞亚方块宠物召唤物品的全面属性分析与详解

泰拉瑞亚同伴方块宠物召唤物品属性详解

任务中心的成就任务中,需要集齐多少种宠物才能顺利达成宠物达人3星?
任务中心的成就任务中,需要集齐多少种宠物才能顺利达成宠物达人3星?

小编为大家带来了8月8日天天爱消除的每日一题,任务中心的成就任务中需要拥有多少种宠物才能达成宠物达人3星?【答题格式为d