Kimi开源视觉语言模型 Kimi-VL 和 Kimi-VL-Thinking在多个基准测试中超越 GPT-4o,展现出卓越的性能与潜力

备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型——Kimi-VLKimi-VL-Thinking。这两款模型以其轻量级的架构卓越的多模态理解与推理能力,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。

QQ_1744593881911.png

轻巧身躯,蕴藏澎湃动力

与动辄拥有数百亿甚至千亿参数的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE(Mixture-of-Experts,混合专家)架构,其激活参数仅约 30亿。这意味着它们在运行和部署上更加高效,对计算资源的要求更低。然而,令人惊讶的是,即便在如此轻量级的架构下,这两款模型依然在多项基准测试中取得了令人瞩目的优异成绩,充分展现了其强大的推理能力。

多模态智能再升级:数学推理与智能体操作表现亮眼

Kimi-VL 系列模型在多模态推理智能体能力方面表现突出。在考验模型多模态数学推理能力的 MathVision 基准测试中,Kimi-VL 取得了 36.8% 的成绩,这一表现足以媲美参数量远超其十倍的大型模型。

更令人印象深刻的是,在评估智能体操作能力的 ScreenSpot-Pro 任务上,Kimi-VL 的得分达到了 34.5%。这表明该模型在理解复杂用户界面并执行相应操作方面拥有出色的潜力,为未来开发更智能的人机交互应用奠定了基础。

QQ_1744593893636.png

高清视野:原生支持高分辨率图像处理

得益于 MoonViT 架构,Kimi-VL 系列模型具备强大的图文识别与理解能力。在 OCRBench 基准测试中,其得分高达 867,充分证明了其在处理高分辨率图像和识别复杂文本方面的卓越性能。这一特性对于处理包含大量图像和文档信息的应用场景至关重要。

超长记忆:轻松驾驭长上下文理解

超长上下文理解能力是 Kimi-VL 系列模型的另一大亮点。它们支持高达 128K tokens 的上下文输入。这意味着模型可以同时处理更长的文档、视频等复杂长文本信息,并进行更深入的理解和分析.

在长文档理解测试 MMLongBench-Doc 中,Kimi-VL 取得了 35.1% 的成绩,而在长视频理解测试 LongVideoBench 上,更是获得了高达 64.5% 的高分。这使得 Kimi-VL 系列模型在文档问答、视频分析等需要处理大量上下文信息的场景中具备巨大的应用潜力.

开源共享,共创多模态智能未来

Moonshot AI 强调,此次开源发布 Kimi-VL 和 Kimi-VL-Thinking 只是迈向通用多模态智能的一小步。他们希望通过开源的方式,吸引更多社区开发者参与到模型的应用开发中,共同探索 Kimi-VL 系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能性。

目前,开发者可以通过以下方式获取 Kimi-VL 系列模型的相关信息和代码:

  • GitHub: https://github.com/MoonshotAI/Kimi-VL

  • https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct

猜你喜欢

如何在诛仙手游中获得修罗之羽 详细解析修罗之羽的获取方法与途径
如何在诛仙手游中获得修罗之羽 详细解析修罗之羽的获取方法与途径

诛仙手游中修罗之羽如何获得?诛仙修罗之羽触发的隐藏任务怎么完成?今天小编就为大家带来诛仙手游修罗之羽获得方法及触发任务介

我的小后妈中字id惊艳重磅回归,网友热议:情节跌宕起伏,笑中带泪的感人故事!
我的小后妈中字id惊艳重磅回归,网友热议:情节跌宕起伏,笑中带泪的感人故事!

最近,《我的小后妈中字id》再次引起了观众们的广泛关注,大家纷纷在社交平台上讨论这部剧带来的意外惊喜。不少网友表示,这部

徐悲鸿油画艺术的探索之路:你了解这些杰出传世作品的背后故事吗?
徐悲鸿油画艺术的探索之路:你了解这些杰出传世作品的背后故事吗?

中国著名画家徐悲鸿,以其卓越的艺术成就和对中国现代美术的深远影响,被誉为“中国近代绘画之父”。徐悲鸿(1895年6月18

gateio平台登录-gate手动版登录网址与操作详解
gateio平台登录-gate手动版登录网址与操作详解

本指南将详细介绍如何通过 Gate io 网页端访问您的账户。登录步骤包括访问官方网站、单击“登录”按钮、输入您的注册凭

微信脑力大乱斗第40关详细解答:如何将损坏的钟表调整到三点钟的正确方法分享
微信脑力大乱斗第40关详细解答:如何将损坏的钟表调整到三点钟的正确方法分享

《微信的脑力大乱斗》是一款非常好玩的小游戏,那么微信脑力大乱斗第40关怎么过呢?很多玩家都在问,那么今天梦之都小编就给大

菊花傲霜,四君子之雅韵,摄影作品如诗如画,展现季节之美!
菊花傲霜,四君子之雅韵,摄影作品如诗如画,展现季节之美!

在中国传统文化中,梅兰竹菊被誉为“四君子”,各自象征着傲、幽、坚、淡的高尚品质。其中,菊花以其独特的魅力,成为了文人墨客

阴阳师中的少羽大天狗御魂使用技巧与最佳搭配推荐解析
阴阳师中的少羽大天狗御魂使用技巧与最佳搭配推荐解析

阴阳师手游大家都玩了吗?很多玩家都在问少羽大天狗御魂怎么用?小编为大家带来了阴阳师手游少羽大天狗御魂搭配推荐,一起来看看

古代通缉令的画像为何总是失真却能成功抓捕逃犯?揭开背后的不为人知的秘密
古代通缉令的画像为何总是失真却能成功抓捕逃犯?揭开背后的不为人知的秘密

古代通缉令虽简陋,却能有效捉拿逃犯,背后原因何在?在古代,捉拿罪犯的方式与现代大相径庭。官府为捉拿罪犯,常会在城镇的大街

全网热议的必看电影,网友称其让加班族深有感触,简直犹如心灵鸡汤的最佳选择!
全网热议的必看电影,网友称其让加班族深有感触,简直犹如心灵鸡汤的最佳选择!

《适合做时看的电影》这一类影片,最适合那些忙碌的打工人,尤其是那些白天上班、晚上还要加班的年轻人。工作让人疲惫,但一部影

微信脑力大乱斗第42关解答分享:当女神准备洗澡时你该采取什么行动?
微信脑力大乱斗第42关解答分享:当女神准备洗澡时你该采取什么行动?

微信脑力大乱斗是一款非常火爆的微信程序小游戏,但是很多玩家都不知道微信脑力大乱斗第42关怎么过?那么这边梦之都小编给大家