阿里国际发布Ovis2系列多模态大语言模型,推出六个不同版本以满足多样化需求

2025 年 2 月 21 日,阿里巴巴国际化团队宣布其新型多模态大语言模型Ovis2 系列正式开源。

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比,Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力。此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。

此次开源的Ovis2 系列包括1B、2B、4B、8B、16B和34B六个版本,各个参数版本均达到了同尺寸的SOTA(State of the Art)水平。其中,Ovis2-34B在权威评测榜单OpenCompass上展现出了卓越的性能。在多模态通用能力榜单上,Ovis2-34B位列所有开源模型第二,以不到一半的参数尺寸超过了诸多70B开源旗舰模型。在多模态数学推理榜单上,Ovis2-34B更是位列所有开源模型第一,其他尺寸版本也展现出出色的推理能力。这些成绩不仅证明了Ovis架构的有效性,也展示了开源社区在推动多模态大模型发展方面的巨大潜力。

微信截图_20250221172215.png

Ovis2 的架构设计巧妙地解决了模态间嵌入策略差异这一局限性。它由视觉tokenizer、视觉嵌入表和LLM三个关键组件构成。视觉tokenizer将输入图像分割成多个图像块,利用视觉Transformer提取特征,并通过视觉头层将特征匹配到“视觉单词”上,得到概率化的视觉token。视觉嵌入表存储每个视觉单词对应的嵌入向量,而LLM则将视觉嵌入向量与文本嵌入向量拼接后进行处理,生成文本输出,完成多模态任务。

在训练策略上,Ovis2 采用了四阶段训练方法,以充分激发其多模态理解能力。第一阶段冻结大部分LLM和ViT参数,训练视觉模块,学习视觉特征到嵌入的转化。第二阶段进一步增强视觉模块的特征提取能力,提升高分辨率图像理解、多语言和OCR能力。第三阶段通过对话形式的视觉Caption数据对齐视觉嵌入与LLM的对话格式。第四阶段则是多模态指令训练和偏好学习,进一步提升模型在多种模态下对用户指令的遵循能力和输出质量。

为了提升视频理解能力,Ovis2 开发了一种创新的关键帧选择算法。该算法基于帧与文本的相关性、帧之间的组合多样性和帧的序列性挑选最有用的视频帧。通过高维条件相似度计算、行列式点过程(DPP)和马尔可夫决策过程(MDP),算法能够在有限的视觉上下文中高效地选择关键帧,从而提升视频理解的性能。

Ovis2 系列模型在OpenCompass多模态评测榜单上的表现尤为突出。不同尺寸的模型在多个Benchmark上均取得了SOTA成绩。例如,Ovis2-34B在多模态通用能力和数学推理榜单上分别位列第二和第一,展现了其强大的性能。此外,Ovis2 在视频理解榜单上也取得了领先性能,进一步证明了其在多模态任务中的优势。

阿里巴巴国际化团队表示,开源是推动AI技术进步的关键力量。通过公开分享Ovis2 的研究成果,团队期待与全球开发者共同探索多模态大模型的前沿,并激发更多创新应用。目前,Ovis2 的代码已开源至GitHub,模型可在Hugging Face和Modelscope平台上获取,同时提供了在线Demo供用户体验。相关研究论文也已发布在arXiv上,供开发者和研究者参考。

代码:https://github.com/AIDC-AI/Ovis

模型(Huggingface):https://huggingface.co/AIDC-AI/Ovis2-34B

模型(Modelscope):https://modelscope.cn/collections/Ovis2-1e2840cb4f7d45

Demo:https://huggingface.co/spaces/AIDC-AI/Ovis2-16B

arXiv: https://arxiv.org/abs/2405.20797

猜你喜欢

外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计
外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计

电子游戏作为一种新兴的艺术形式,近年来迅速崛起,成为全球文化现象的重要组成部分。从早期的像素艺术到如今的高清3D画面,游戏的视觉效果

《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法
《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法

在当今快节奏的生活中,社交游戏已经成为一种新兴的娱乐方式,尤其是那些能够引发思考与交流的游戏更是备受玩家青睐。《老公请部长家里吃饭

亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)
亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)

在今天的数字时代,游戏不仅仅是消遣娱乐的工具,它更是一个深蕴文化和情感的载体。从简单的图形和音效演变为如今复杂的多维度世界,游戏的

春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界
春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界

在第30个世界读书日即将到来之际,南通市崇川区举办了一场别开生面的全民阅读推广活动,为春日阅读增添了一抹独特的色彩。4月

圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾
圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾

在东方园林艺术的璀璨星河中,18世纪的圆明园无疑是最为耀眼的明珠之一。而提及圆明园,便不得不提清代画家陈枚的杰出作品——

常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境
常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境

在当代国画艺术的璀璨星河中,常波以其“鸿运当头鲤鱼”系列作品脱颖而出,犹如一颗耀眼的星辰,以其深厚的文化底蕴和独特的艺术

放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织
放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织

在欣赏艺术品的微妙之处时,细节往往成为决定作品成败的关键。尤其是名画,其细节不仅体现了艺术家的匠心独运,还往往隐藏着背后

华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇
华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇

在书法艺术的浩瀚星空中,又一颗璀璨之星悄然升起。华一民,这位来自江苏无锡却在浙江杭州诞生的艺术家,如今在重庆南岸区安享晚

瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力
瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力

瑞安春色正浓,踏青赏花正当时。这座位于东南沿海的城市,因其温润的气候和充沛的雨水,孕育了众多奇花异卉,成为春日里一道亮丽

古代官府如何运用抽象画像和通缉令迅速定位和捕捉逃犯?
古代官府如何运用抽象画像和通缉令迅速定位和捕捉逃犯?

古代通缉令画像抽象,却为何总能迅速捉拿犯人?这一历史谜团近日被揭开。在古代,官府发布的通缉令上,犯人的画像往往十分抽象,