苹果重磅推出!FastVLM 实现视觉语言模型在 iPhone 上迅速“飙升”性能

苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!

视觉语言模型的 “成长烦恼”

现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。一般来说,VLMs 是把预训练的视觉骨干网络提取的视觉 token,通过投影层传给预训练的大语言模型(LLM)。之前好多研究都在探索怎么训练和微调这几个组件,让模型变得更强。

image.png

研究发现,提高图像分辨率能显著提升 VLMs 在一些任务上的表现,尤其是处理那些文字和图表丰富的图像时。你想啊,图片越清晰,模型能 “看” 到的细节就越多,理解起来不就更准确嘛!但这也带来了不少麻烦。一方面,很多预训练的视觉编码器不太支持高分辨率图像,强行用的话,预训练效率会变得超级低。为了解决这个问题,有人尝试持续预训练视觉骨干网络,让它适应高分辨率;还有人把图像切成小块,像拼图一样分别处理,不过这也挺麻烦的。

另一方面,高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理,还是把图像切块后进行低分辨率推理,都会产生很大的延迟。而且高分辨率图像生成的 token 更多,这又增加了 LLM 处理这些 token 的时间,导致整个模型输出首个 token 的时间(TTFT)变长。这就好比你让一个人一下子处理太多任务,他肯定会手忙脚乱,速度变慢。

FastVLM 来 “救场”

面对这些难题,苹果的研究团队搞出了 FastVLM,它就像是给 VLMs 注入了一剂 “加速药水”,能在保证性能的同时,大幅提升运行效率。

架构设计:另辟蹊径的 “智慧结晶”

FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时,团队发现混合视觉编码器(卷积层加上 Transformer 块)是个不错的选择。卷积层可以轻松处理不同分辨率的图像,Transformer 块则能进一步优化视觉 token,让 LLM 更好地理解。

image.png

他们用的 FastViT 就是基于这种架构,经过 MobileCLIP 预训练,效果还不错。比如,在相同的 VLM 基准测试中,FastViT 生成视觉 token 的速度比 ViT 模型快4倍多,准确率也更高。

image.png

不过,团队并没有满足于此。为了让模型在高分辨率下表现更出色,他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层,让 self - attention 层处理的张量更小,这样就能减少图像编码延迟,还能为计算密集型的 LLM 解码器生成更少的 token,从而降低 TTFT。打个比方,这就像是给模型的 “信息高速公路” 拓宽了车道,还优化了交通规则,让信息传递得又快又稳。

训练与优化:精心打磨的 “成长之路”

训练 FastVLM 就像培养一个优秀的运动员,需要精心规划。研究人员采用了两阶段训练法,和 LLaVA -1.5的设置类似。第一阶段,只训练投影仪,用的是 LLaVA -558K 对齐数据集,训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段,用 LLaVA -665K 监督微调数据集,把模型的所有模块都拿来训练,这时图像分辨率就设置成目标分辨率。


image.png

为了让模型更好地适应不同的任务和数据集,研究人员还做了很多优化。比如,他们尝试了多尺度特征提取,把网络不同阶段的信息整合起来,让模型能更好地理解图像。就像我们看一幅画,不仅要看整体,还要关注细节,多尺度特征提取就起到了这个作用。此外,他们还对比了不同的池化策略和连接器设计,发现用深度卷积进行池化能让模型性能更优。

实验结果:实力碾压的 “高光时刻”

在实验环节,FastVLM 简直就是 “学霸”,成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估,包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示,在和其他模型的对比中,FastVLM 优势明显。

image.png

和基于卷积的 ConvLLaVA 相比,同样的 LLM 和相似的训练数据规模下,FastVLM 在 TextVQA 任务上性能提升了8.4%,在 DocVQA 任务上提升了12.5%,而且速度还快了22%。在高分辨率下,这种优势更加明显,FastVLM 的速度比 ConvLLaVA 快了2倍,在多个基准测试中都取得了更好的成绩。

image.png

和其他用多个视觉编码器的模型比,FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器,视觉编码在总 TTFT 中占比很大,而 FastVLM 用单个编码器,不仅速度比它快7.9倍,在相似的视觉指令调优数据集训练下,性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中,FastVLM 也能凭借更少的视觉 token 取得更好的成绩。

FastVLM 的优势与意义

FastVLM 的出现,给视觉语言模型领域带来了新的希望。它最大的优势就是在保证模型性能的同时,大幅提升了运行效率。以前的模型在处理高分辨率图像时,要么速度慢,要么准确率低,FastVLM 很好地解决了这些问题。

对于我们普通用户来说,这意味着以后在手机上使用相关应用时,体验会大大提升。比如用图像搜索功能,以前可能要等半天才能出结果,现在用搭载 FastVLM 的应用,瞬间就能得到答案。对于开发者来说,FastVLM 提供了一个高效的模型框架,能让他们开发出更强大、更智能的应用。

从更宏观的角度看,FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法,可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来,会有更多基于 FastVLM 的创新应用出现,让我们的生活变得更加智能和便捷。

论文地址:https://www.arxiv.org/pdf/2412.13303

项目地址:https://github.com/apple/ml-fastvlm

猜你喜欢

NBA2K17王朝模式中的自定义名单选择技巧以及具体操作步骤解析
NBA2K17王朝模式中的自定义名单选择技巧以及具体操作步骤解析

NBA2K17游戏中在王朝模式下玩家可以选择自定义名单,那么在该模式下玩家应该如何定义自己的名单呢?选择有什么技巧吗?下

街头篮球突破技巧分享:提升突破成功率的小窍门和实战经验
街头篮球突破技巧分享:提升突破成功率的小窍门和实战经验

现在很多玩家在街头篮球手游中不知道怎么去突破,突破成功率很低,困扰了很多玩家。下面小编就告诉大家高成功率的突破技巧和一些

不良人2中女帝的实力究竟如何?她的技能搭配方式是什么?
不良人2中女帝的实力究竟如何?她的技能搭配方式是什么?

《不良人2》手游中的女帝是初始中天位1星的控制型角色,关于女帝,好多玩家在问女帝的实力如何,女帝到底厉不厉害呢?下面小编

问道手游羽化丹获取途径详解,教你如何免费获得问道羽化丹的方法
问道手游羽化丹获取途径详解,教你如何免费获得问道羽化丹的方法

问道手游中羽化丹作为培养宠物重要的材料,我们有哪些途径可以获取呢?很多小伙伴还不清楚,下面小编就为大家带来问道手游羽化丹

问道手游宠物洗练的具体操作步骤详解及相关注意事项
问道手游宠物洗练的具体操作步骤详解及相关注意事项

问道手游洗宠怎么操作?问道洗宠操作流程是什么?很多小伙伴还不清楚。问道手游中碰到宠物宝宝的概率是比较低的,然而野怪却是十

泰拉瑞亚四剑武器对比分析,光之驱逐在其中表现如何?
泰拉瑞亚四剑武器对比分析,光之驱逐在其中表现如何?

在泰拉瑞亚中攻人气武器四剑可以说都比较不错,那么武器四剑哪个最好?很多玩家比较好奇,今天小编就为大家带来泰拉瑞亚人气武器

Fate/Grand Order弗朗西斯德雷克强度分析及攻略 他是否值得玩家投资与入手
Fate/Grand Order弗朗西斯德雷克强度分析及攻略 他是否值得玩家投资与入手

Fate Grand Order朗西斯德雷克作为新的五星从者,在12月2日更新之后进入圣晶石召唤卡池,开启限时召唤活动,

王者荣耀哈士奇角色解析与最强装备推荐,助你成为战场上的赢家
王者荣耀哈士奇角色解析与最强装备推荐,助你成为战场上的赢家

现在王者荣耀中有个哈士奇的英雄非常热门,但是哈士奇到时是谁?王者荣耀哈士奇如何出装?王者荣耀哈士奇打法有什么技巧?今天小

梦幻诛仙手游玲珑与鬼先生谁更为强大?实力实测与详细对比分析攻略
梦幻诛仙手游玲珑与鬼先生谁更为强大?实力实测与详细对比分析攻略

玲珑和鬼先生都是梦幻诛仙中玩家们特别喜欢的角色,受到了广大玩家的青睐。那么她们两个到底谁更厉害一点呢?相信好多的玩家还不

如何注册超级马里奥跑酷美国账号 美国区账号注册详细攻略及操作步骤
如何注册超级马里奥跑酷美国账号 美国区账号注册详细攻略及操作步骤

超级马里奥run已经正式上架APP store了,虽然没有在中国上, 但是很多玩家还是想办法玩上了美国区的游戏,那么超级