多模态检索领域再创佳绩!智源开源的BGE-VL多模态向量模型引领新趋势

2025年3月6日,北京智源人工智能研究院宣布开源多模态向量模型BGE-VL,这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果,显著提升了多模态检索的性能。

BGE-VL的开发基于大规模合成数据集MegaPairs,该数据集通过结合多模态表征模型、多模态大模型和大语言模型,从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性,能够以极低成本持续生成多样化且高质量的数据,还大幅提升了数据质量。与传统人工标注数据相比,MegaPairs仅需1/70的数据量即可实现更优的训练效果。

在技术实现上,MegaPairs的构造分为两个关键步骤:首先,使用多种相似度模型从图像数据集中挖掘多样的图像对;其次,利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法,MegaPairs无需人工参与,即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本,为多模态检索模型的训练提供了丰富的数据支持。

微信截图_20250306144622.png

基于MegaPairs数据集,智源BGE团队训练了3款不同尺寸的多模态检索模型,包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评测任务中,BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现,证明了其良好的任务泛化能力。

在组合图像检索任务中,BGE-VL在CIRCO评测集上刷新了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。

此外,研究还表明,MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加,BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)即可实现显著的性能优势。

项目主页:

https://github.com/VectorSpaceLab/MegaPairs

模型地址:

https://huggingface.co/BAAI/BGE-VL-MLLM-S1

猜你喜欢

孔子形象中的门牙突出,背后到底蕴藏了怎样深厚的文化寓意与哲理?
孔子形象中的门牙突出,背后到底蕴藏了怎样深厚的文化寓意与哲理?

近日,有关中国古代伟大思想家孔子的一项独特特征引起了广泛关注:众多历史画像中的孔子,无一例外地展现了他那两颗醒目的大门牙

新手玩家在《这就是江湖》中的前期游戏策略与玩法详解
新手玩家在《这就是江湖》中的前期游戏策略与玩法详解

在踏入这就是江湖的广袤世界之初,每一位新手玩家都怀揣着成为武林高手的梦想。然而,江湖路远,唯有步步为营,方能立足。以下是

四月春光明媚时,书法与绘画齐展自然风采与色彩
四月春光明媚时,书法与绘画齐展自然风采与色彩

四月,春光明媚,万物复苏,正是书画艺术绽放光彩的最佳时节。在这个充满生机与希望的季节里,书画大师们以笔墨为媒介,将四月的

凡人传说首次邂逅仙宗游戏体验与玩法分享的详细心得
凡人传说首次邂逅仙宗游戏体验与玩法分享的详细心得

在浩瀚无垠的人世间,每一个凡人都在为了生活奔波,追逐着那虚无缥缈的梦想与幸福。而我,一个平凡至极的书生,从未想过自己的命

探索鲁大师TV视频播放的新方式:利用智能推荐系统轻松寻找高清优质视频内容
探索鲁大师TV视频播放的新方式:利用智能推荐系统轻松寻找高清优质视频内容

鲁大师tv视频在线观看:如何快速找到你想要的内容?在当今信息化时代,在线视频的需求越来越大,特别是一些高质量的电视节目和

探讨塞尚静物画中物质质地与情感表达的和谐共生,揭示其如何塑造出独特的绘画美感
探讨塞尚静物画中物质质地与情感表达的和谐共生,揭示其如何塑造出独特的绘画美感

在艺术的浩瀚星空中,保罗·塞尚无疑是一颗璀璨的星辰,其绘画风格的发展历程充满了探索与革新。近期,关于塞尚艺术成就的讨论再

如何在《凡人传说》中整理悟道圣地的资源与攻略,提升修炼效率
如何在《凡人传说》中整理悟道圣地的资源与攻略,提升修炼效率

在这片古老的土地上,无数的凡人追求着真理与智慧,他们通过各种途径寻求心灵的升华和精神的觉醒。这些圣地不仅仅是地理上的地点

日本最受欢迎的MV作品:探索它们为何能深深吸引观众的原因
日本最受欢迎的MV作品:探索它们为何能深深吸引观众的原因

日本MV片一直以其独特的美学风格和创新的影像语言吸引着世界各地的观众。在众多的日本MV片中,究竟哪一部才是最具视觉冲击力

徐建融探讨书画与文史的融合现象:为何民国大师们能够兼容并蓄,而当今艺术界却明显分隔?
徐建融探讨书画与文史的融合现象:为何民国大师们能够兼容并蓄,而当今艺术界却明显分隔?

在上海的文化地图上,上海古籍书店与艺术书坊如同一对孪生兄弟,共同承载着这座城市深厚的文化底蕴。近日,一位文化爱好者分享了

弓箭传说2中神眷者角色的技能强度分析与实战体验探讨
弓箭传说2中神眷者角色的技能强度分析与实战体验探讨

在弓箭传说2这款备受欢迎的游戏中,神眷者角色以其独特的技能和强大的战斗力吸引了众多玩家的目光。本文将深入探讨神眷者的各个