淘天推出全新对齐技术,以有效应对视觉大模型中的幻觉表现问题

近年来,视觉大模型(Large Vision Language Models, LVLMs)在图像理解和跨模态任务中展现出非凡的能力,然而随之而来的 “幻觉现象” 问题也日益突出。为了应对这一挑战,淘天集团的未来生活实验室团队提出了一种名为 “令牌偏好优化”(Token Preference Optimization,简称 TPO)的新方法,并引入了一种自我校准的视觉锚定奖励机制。

image.png

TPO 的最大创新在于它实现了自动化的令牌级奖励信号。这一方法能够自动识别偏好数据中的视觉锚定令牌,避免了人工细粒度标注的繁琐,同时在训练过程中为每个令牌分配了反映其与视觉信息依赖程度的奖励。这一自校准的视觉锚定奖励信号,旨在优化模型对视觉信息的依赖性,从而有效减轻幻觉现象的发生。

image.png

研究表明,采用 TPO 的模型在多个评测基准中显著优于传统的方法,尤其是在更复杂的任务中,模型生成的答案越来越依赖于图像信息而非语言模型的先验知识。这一进步不仅提升了模型的理解能力,也为进一步研究提供了重要的理论基础。

此外,研究团队还对 TPO 的不同参数设置进行了消融实验,发现优化的加噪步骤和奖励分配策略能够进一步提高模型性能。这一发现无疑为未来的视觉大模型研究和应用指明了方向。

总之,淘天的这一创新成果为多模态对齐技术提供了新的思路,推动了 AI 技术在生活和消费领域的深入应用。

猜你喜欢

古庄寨在新时代背景下焕发的新生活与新风貌
古庄寨在新时代背景下焕发的新生活与新风貌

抢救性修缮保护古建,依托文化遗产振兴乡村一片古庄寨的时代新貌(护文化遗产 彰时代新义)核心阅读位于闽中戴云山区的永泰庄寨

传承与创新交融下的“非遗”技艺焕发新生活力再现
传承与创新交融下的“非遗”技艺焕发新生活力再现

回归生产实践和生活体验——“非遗”技艺活力再现(创造性转化创新性发展纵横谈·解读国风国潮)核心阅读非遗技艺从过去的抢救性

通过珍贵老照片重现汉阳古城昔日辉煌及其独特风貌
通过珍贵老照片重现汉阳古城昔日辉煌及其独特风貌

位于汉阳古城内的显正街是武汉最古老的街道之一,有着1400年历史。日前出版的新书《显正街记忆》,首次披露了一批老照片,还

探讨沉浸式戏剧风靡背后的原因与其独特魅力
探讨沉浸式戏剧风靡背后的原因与其独特魅力

“点——灯——”当参观者戴上实习研究员的工牌,齐声喊出“启动密码”后,一场沉浸式的文物修复之旅就正式开始了。这是目前正在

古籍保护的十年历程:使古籍在新时代中焕发活力与传承价值
古籍保护的十年历程:使古籍在新时代中焕发活力与传承价值

古籍保护这十年:让古籍“活”起来传下去记者 刘彬【奋进新征程 建功新时代·伟大变革】草长莺飞,春风拂柳。这个春天,古籍修

在综艺舞台重现音乐剧魅力,实现“原汁原味”面临新的挑战
在综艺舞台重现音乐剧魅力,实现“原汁原味”面临新的挑战

东方卫视音乐剧类综艺《爱乐之都》开播,观众体验褒贬不一,专访演出业内人士揭秘拍摄技术音乐剧搬上综艺舞台,想“原汁原味”有

通过艺术的创新想象推动技术的无限创造力与灵感阀门开启
通过艺术的创新想象推动技术的无限创造力与灵感阀门开启

艺术想象力带动技术创造力(坚持“两创” 书写史诗)核心阅读舞美是一出戏内在精神的视觉体现。艺术想象力往往决定着作品的特点

梁晓声最新长篇小说深刻描绘80后在彷徨与坚守之间的心路历程与成长故事
梁晓声最新长篇小说深刻描绘80后在彷徨与坚守之间的心路历程与成长故事

本报讯(记者 李俐)在年初《人世间》爆火之后,茅盾文学奖得主梁晓声近日出版现实主义新长篇《中文桃李》,聚焦时代更迭之际青

新一届中国女排大名单正式发布!天津队球员三人成功入选引关注!
新一届中国女排大名单正式发布!天津队球员三人成功入选引关注!

据@人民日报体育 消息,新一届中国女排大名单公布。通知显示,共有20名运动员入选大名单。其中,天津女排的李盈莹、王媛媛、

古代人眼中的“科幻”宇宙:他们如何构建未来世界的幻想
古代人眼中的“科幻”宇宙:他们如何构建未来世界的幻想

我国最近不少航天科技的命名都与传统文化符号有关。如探月工程有“嫦娥”“玉兔”,探日工程有“羲和”,我国自建的导航系统叫“