MIT与DeepMind的研究发现视觉语言模型在理解否定表达时存在根本性缺陷及其原因解析

在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。

image.png

否定在许多应用中至关重要,例如区分 “没有窗户的房间” 和 “有窗户的房间”。尽管 VLMs 取得了显著进展,但在处理否定陈述时,现有模型的表现却大幅下降。这种限制尤其在安全监控和医疗保健等高风险领域中显得尤为重要。

现有的 VLMs,如 CLIP,采用共享嵌入空间来对齐视觉和文本表示。虽然这些模型在跨模态检索和图像说明等任务上表现出色,但在处理否定语句时却显得力不从心。此问题的根源在于预训练数据的偏差,训练数据主要由肯定示例构成,导致模型将否定与肯定陈述视为同义。因此,现有的基准测试,如 CREPE 和 CC-Neg,采用了简单的模板示例,无法真实反映自然语言中否定的丰富性和深度。这使得 VLMs 在进行精准的语言理解应用时,如查询医学影像数据库中的复杂条件,面临巨大挑战。

为了解决这些问题,来自麻省理工学院、谷歌 DeepMind 和牛津大学的研究人员提出了 NegBench 框架,用于评估和改进 VLMs 对否定的理解能力。该框架评估两个基本任务:检索与否定(Retrieval-Neg),检验模型根据肯定和否定描述检索图像的能力;多项选择题与否定(MCQ-Neg),评估模型在微妙理解上的表现。NegBench 使用大量合成数据集,如 CC12M-NegCap 和 CC12M-NegMCQ,包含数百万个涵盖丰富否定场景的标题,从而提高模型的训练和评估效果。

image.png

通过结合真实和合成的数据集,NegBench 有效克服了现有模型的限制,显著提高了模型的性能和泛化能力。经过微调的模型在检索和理解任务上都表现出显著改善,特别是在处理否定查询时,模型的召回率提高了10%。在多项选择任务中,准确率提升了多达40%,显示出在微妙的肯定和否定标题之间进行区分的能力大大增强。

NegBench 的提出,填补了 VLMs 在理解否定方面的关键空白,为构建更强大的人工智能系统铺平了道路,尤其在医学诊断和语义内容检索等关键领域具有重要意义。

论文:https://arxiv.org/abs/2501.09425

代码:https://github.com/m1k2zoo/negbench

划重点:  

🌟 研究人员揭示了视觉语言模型在理解否定方面的不足,主要源于训练数据的偏差。  

📈 NegBench 框架通过引入丰富的否定示例,显著提升了模型在检索和理解任务上的表现。  

🔍 微调后的模型在处理否定查询时,准确率和召回率都有显著提高,推动了人工智能系统的进步。

猜你喜欢

“联名菜品”让徽菜焕发新生命 文化在味蕾中绵延不绝“口口相传”
“联名菜品”让徽菜焕发新生命 文化在味蕾中绵延不绝“口口相传”

4月10日电 题:“联名款”徽菜赋新意 文化在舌尖“口口相传”作者 赵强 储玮玮发的片儿状皮肚、竹荪用金色的浓汤煨煮,接

看似经常“怼人”的林黛玉,实际上却是最懂生活真谛的人
看似经常“怼人”的林黛玉,实际上却是最懂生活真谛的人

北京4月10日电(记者 上官云)“(这花)是单给我一个人的,还是别的姑娘都有?”作为《红楼梦》里斗嘴的名场面之一,林黛玉

通过文化IP的多元开发与创新影视表现形式,助力洛阳文化影响力的跨界传播
通过文化IP的多元开发与创新影视表现形式,助力洛阳文化影响力的跨界传播

文化IP的系列打造与创新性影视表达,让十三朝古都成功实现文化“破圈”——“若问古今兴废事,请君只看洛阳城”阅读提示202

国乐传承中的青春心声与时代共鸣的体现与探索
国乐传承中的青春心声与时代共鸣的体现与探索

吕何光在“国风”“国潮”蔚然成风的今天,如何在高雅国乐和大众青年之间建立起有效连接,创作出吸引年轻群体的国风音乐节目?广

北美票房:《刺猬索尼克2》首映成绩亮眼,引发影迷热议与期待
北美票房:《刺猬索尼克2》首映成绩亮眼,引发影迷热议与期待

洛杉矶4月10日电 (记者 张朔)时隔两年再登大银幕的“刺猬索尼克”不负业界预期,首映即夺北美周末票房排行榜头筹。北美票

在古籍修复过程中引入人工智能技术的创新探索与未来展望
在古籍修复过程中引入人工智能技术的创新探索与未来展望

北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的“古籍智能信息处理”系列

湖广会馆将在年底转变为展示传统文化的活态博物馆,带您领略历史魅力
湖广会馆将在年底转变为展示传统文化的活态博物馆,带您领略历史魅力

本报讯(记者 张骜)为让老会馆重焕光彩,湖广会馆正在进行为期300余天的修缮,预计今年底修缮完毕,届时一座全域性活态博物

中央民族乐团团长赵聪:艺术的无界限之美与文化的交融探索
中央民族乐团团长赵聪:艺术的无界限之美与文化的交融探索

北京4月11日电 题:中央民族乐团团长赵聪:艺术本身没有界限中新社记者 高凯“弹指之间穿越古今,无问东西自在无边”,被赵

传承非遗文化十载初心不变 河北青县少年梨园携手奋发争春
传承非遗文化十载初心不变 河北青县少年梨园携手奋发争春

图为河北省青县“哈哈腔剧团”小演员们在青县百年梨园练功和排演戏曲。王占林摄沧州4月11日电 (王天译 尹向平)“高仲举来

古庄寨在新时代背景下焕发的新生活与新风貌
古庄寨在新时代背景下焕发的新生活与新风貌

抢救性修缮保护古建,依托文化遗产振兴乡村一片古庄寨的时代新貌(护文化遗产 彰时代新义)核心阅读位于闽中戴云山区的永泰庄寨