视觉语言模型再创新成就!Visual ARFT 推动多模态智能体的智能化发展

随着人工智能的迅猛发展,尤其是在大型推理模型领域,如 OpenAI 的 o3,研究者们正在努力让这些模型具备更强的智能体能力。这种能力不仅仅局限于文本处理,更扩展到了图像理解与操作。近日,来自上海交通大学、上海人工智能实验室、香港中文大学和武汉大学的研究团队推出了一种名为 Visual-ARFT(视觉智能体强化微调)的新方法,旨在提升视觉语言模型的多模态智能体能力,使其能够更灵活地执行复杂任务。

Visual-ARFT 的核心在于赋予模型 “工具智能体” 的能力。这意味着,模型不仅能够分析和理解图像,还能主动调用外部工具进行搜索或编写代码。这一能力使得模型在面对复杂的多模态问题时,能够自主拆解任务、规划步骤,并完成任务。例如,它可以在分析图像信息后,通过搜索引擎查找所需信息,或者生成 Python 代码处理图像,完成视觉问答。

image.png

为了评估 Visual-ARFT 的有效性,研究团队构建了一个新的评测基准 MAT-Bench(多模态智能体工具基准)。该基准包含多个复杂的多跳视觉问答任务,能够准确评估模型在工具调用与多模态推理方面的能力。测试结果显示,使用 Visual-ARFT 方法的模型在多个子任务中均表现优异,超越了 GPT-4o 等先进模型,展现出显著的潜力。

image.png

值得一提的是,Visual-ARFT 采用了一种基于强化微调的训练策略,通过简单而高效的奖励机制,驱动模型自主探索如何使用工具,并形成完整的推理过程。研究团队在训练中使用了少量的数据,但却成功提升了模型的多模态智能体能力。

未来,Visual-ARFT 不仅将为智能体能力的发展开辟新路径,还可能在图像处理、智能搜索等多个领域产生深远影响。随着技术的不断进步,我们期待看到更多智能体在复杂场景中的表现,进而推动人工智能的边界不断拓展。

项目地址:https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT

猜你喜欢

王者荣耀在金币上限达到后如何继续增加金币?解决每周金币上限的有效方法有哪些?
王者荣耀在金币上限达到后如何继续增加金币?解决每周金币上限的有效方法有哪些?

王者荣耀金币达到上限后怎么继续加金币?每周金币上限怎么解决1、通过冒险模式获得的金币是没有限制的,也就是说你一天可以玩很

侠隐风云中各职业特点解析与推荐 哪个职业更加适合你的游戏风格?
侠隐风云中各职业特点解析与推荐 哪个职业更加适合你的游戏风格?

侠隐风云哪个职业最好?相信小伙伴们一定很好奇,下面小编为大家带来了侠隐风云职业推荐介绍,感兴趣的小伙伴赶紧跟着小编一起来

星球大战:亡命之徒太空取货中屏障解除的详细技巧与全面解析
星球大战:亡命之徒太空取货中屏障解除的详细技巧与全面解析

星球大战:亡命之徒太空取货屏障解除技巧全解析

创造与魔法中的柠檬位置详细介绍及获取方法
创造与魔法中的柠檬位置详细介绍及获取方法

创造与魔法柠檬在哪?很多小伙伴都不知道,下面小编就为大家带来创造与魔法柠檬位置介绍,一起和小编来看看吧!柠檬位置介绍柠檬

最终幻想16玛莎旅社招牌回忆物品全攻略详细流程解析
最终幻想16玛莎旅社招牌回忆物品全攻略详细流程解析

最终幻想16回忆物品玛莎旅社招牌全流程攻略

不思议迷宫天空事件监控效果如何?详细攻略与实用技巧分享
不思议迷宫天空事件监控效果如何?详细攻略与实用技巧分享

不思议迷宫天空事件监控大家都有了解吗?最近许多玩家都不知道不思议迷宫天空事件监控怎么样,那么小编今天就给大家带来了不思议

《王者荣耀》未成年人游戏时间限制如何解除 详细解锁方法与注意事项分享
《王者荣耀》未成年人游戏时间限制如何解除 详细解锁方法与注意事项分享

自从王者荣耀健康系统上线后,所有的账号都受到严格的防沉迷控制,那么未成年时间限制怎么解除?有什么方法,为了大家能够更好的

潜渊症尖冰岩Boss战全面攻略与终极应对技巧
潜渊症尖冰岩Boss战全面攻略与终极应对技巧

潜渊症尖冰岩Boss战终极应对策略

皇帝成长计划2壮丁不足的解决方案及壮丁数量增涨的详细规则解析
皇帝成长计划2壮丁不足的解决方案及壮丁数量增涨的详细规则解析

皇帝成长计划2壮丁影响到玩家的发展速度,和军队数量,玩家往往角色不够用,91单机小编给大家带来皇帝成长计划2壮丁增长方法