苹果重磅推出！FastVLM 实现视觉语言模型在 iPhone 上迅速“飙升”性能-梦之都

苹果最近又搞了个大新闻，偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵，但简单来说，这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”，不仅能看懂图片里的各种复杂信息，还能像个段子手一样跟你“贫嘴”!而且最厉害的是，它速度快到飞起，苹果官方宣称，首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!

视觉语言模型的 “成长烦恼”

现在的视觉语言模型，就像个不断进化的小天才，能同时理解图像和文本信息。它的应用可广了，从帮咱们理解图片里的内容，到辅助创作图文并茂的作品，都不在话下。一般来说，VLMs 是把预训练的视觉骨干网络提取的视觉 token，通过投影层传给预训练的大语言模型（LLM）。之前好多研究都在探索怎么训练和微调这几个组件，让模型变得更强。

研究发现，提高图像分辨率能显著提升 VLMs 在一些任务上的表现，尤其是处理那些文字和图表丰富的图像时。你想啊，图片越清晰，模型能 “看” 到的细节就越多，理解起来不就更准确嘛!但这也带来了不少麻烦。一方面，很多预训练的视觉编码器不太支持高分辨率图像，强行用的话，预训练效率会变得超级低。为了解决这个问题，有人尝试持续预训练视觉骨干网络，让它适应高分辨率;还有人把图像切成小块，像拼图一样分别处理，不过这也挺麻烦的。

另一方面，高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理，还是把图像切块后进行低分辨率推理，都会产生很大的延迟。而且高分辨率图像生成的 token 更多，这又增加了 LLM 处理这些 token 的时间，导致整个模型输出首个 token 的时间（TTFT）变长。这就好比你让一个人一下子处理太多任务，他肯定会手忙脚乱，速度变慢。

FastVLM 来 “救场”

面对这些难题，苹果的研究团队搞出了 FastVLM，它就像是给 VLMs 注入了一剂 “加速药水”，能在保证性能的同时，大幅提升运行效率。

架构设计:另辟蹊径的 “智慧结晶”

FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时，团队发现混合视觉编码器（卷积层加上 Transformer 块）是个不错的选择。卷积层可以轻松处理不同分辨率的图像，Transformer 块则能进一步优化视觉 token，让 LLM 更好地理解。

他们用的 FastViT 就是基于这种架构，经过 MobileCLIP 预训练，效果还不错。比如，在相同的 VLM 基准测试中，FastViT 生成视觉 token 的速度比 ViT 模型快4倍多，准确率也更高。

不过，团队并没有满足于此。为了让模型在高分辨率下表现更出色，他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层，让 self - attention 层处理的张量更小，这样就能减少图像编码延迟，还能为计算密集型的 LLM 解码器生成更少的 token，从而降低 TTFT。打个比方，这就像是给模型的 “信息高速公路” 拓宽了车道，还优化了交通规则，让信息传递得又快又稳。

训练与优化:精心打磨的 “成长之路”

训练 FastVLM 就像培养一个优秀的运动员，需要精心规划。研究人员采用了两阶段训练法，和 LLaVA -1.5的设置类似。第一阶段，只训练投影仪，用的是 LLaVA -558K 对齐数据集，训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段，用 LLaVA -665K 监督微调数据集，把模型的所有模块都拿来训练，这时图像分辨率就设置成目标分辨率。

为了让模型更好地适应不同的任务和数据集，研究人员还做了很多优化。比如，他们尝试了多尺度特征提取，把网络不同阶段的信息整合起来，让模型能更好地理解图像。就像我们看一幅画，不仅要看整体，还要关注细节，多尺度特征提取就起到了这个作用。此外，他们还对比了不同的池化策略和连接器设计，发现用深度卷积进行池化能让模型性能更优。

实验结果:实力碾压的 “高光时刻”

在实验环节，FastVLM 简直就是 “学霸”，成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估，包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示，在和其他模型的对比中，FastVLM 优势明显。

和基于卷积的 ConvLLaVA 相比，同样的 LLM 和相似的训练数据规模下，FastVLM 在 TextVQA 任务上性能提升了8.4%，在 DocVQA 任务上提升了12.5%，而且速度还快了22%。在高分辨率下，这种优势更加明显，FastVLM 的速度比 ConvLLaVA 快了2倍，在多个基准测试中都取得了更好的成绩。

和其他用多个视觉编码器的模型比，FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器，视觉编码在总 TTFT 中占比很大，而 FastVLM 用单个编码器，不仅速度比它快7.9倍，在相似的视觉指令调优数据集训练下，性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中，FastVLM 也能凭借更少的视觉 token 取得更好的成绩。