字节跳动发布全新Vidi多模态模型,开启超长视频理解与编辑的新纪元与潮流

字节跳动宣布推出全新多模态模型Vidi,专注于视频理解与编辑,首版核心能力为精准的时间检索功能。据AIbase了解,Vidi能够处理视觉、音频和文本输入,支持长达一小时的超长视频分析,在时间检索任务上性能超越GPT-4o与Gemini等主流模型。这一突破性技术已在AI社区引发热烈讨论,相关细节通过字节跳动官方渠道与GitHub公开。

1.jpg

核心功能:精准时间检索与多模态协同

Vidi以其强大的时间检索与多模态处理能力,为视频理解与编辑提供了全新解决方案。AIbase梳理了其主要功能:  

时间检索精准定位:Vidi可根据文本提示或多模态输入,精确定位视频中的特定片段(如“找到角色跳舞的30秒片段”),时间分辨率达到秒级,显著提升内容检索效率。  

超长视频支持:支持处理长达一小时的视频,突破传统模型在长序列视频理解上的内存与计算瓶颈,适合分析电影、直播或会议录像。  

多模态输入处理:整合视觉(帧序列)、音频(语音、背景音)与文本(字幕、描述),实现跨模态语义理解,如根据音频情绪定位视频高光时刻。  

高效编辑能力:支持基于时间检索的视频片段剪辑、重组与标注,简化内容创作与后期制作流程。

AIbase注意到,社区测试显示,Vidi在处理Youku-mPLUG数据集(10M视频-语言对)时,能快速定位复杂场景片段,超越GPT-4o在ActivityNet时间检索任务上的表现(准确率提升约10%)。

技术架构:创新时间编码与多模态融合

Vidi基于字节跳动的VeOmni框架,结合视频专用大语言模型(Vid-LLM)与时间增强的变换器架构。AIbase分析,其核心技术包括:  

时间增强变换器:通过时间嵌入(Temporal Embedding)与分层注意力机制,优化长序列视频的时空关系建模,确保高精度时间检索。  

多模态编码器:采用Chat-UniVi的统一视觉表示,融合视频帧、音频波形与文本嵌入,支持跨模态语义对齐,减少信息丢失。  

高效推理优化:利用字节的ByteScale分布式训练系统,结合4-bit量化与动态分块处理,显著降低超长视频处理的计算成本。  

数据集驱动:训练数据包括Youku-mPLUG(10M视频-语言对)与WebVid-10M,覆盖多语言与多样化场景,提升模型泛化能力。  

AIbase认为,Vidi的时间检索能力得益于其创新的PHD-CSWA(Chunk-wise Sliding Window Attention)机制,与字节此前发布的高效预训练长度缩放技术一脉相承,特别适合长序列任务。

应用场景:从内容创作到智能分析

Vidi的多模态能力与超长视频支持为其开辟了广泛的应用场景。AIbase总结了其主要用途:  

内容创作与剪辑:为视频创作者提供精准片段定位与自动剪辑工具,简化短视频、Vlog或电影预告片制作,如快速提取直播中的高光时刻。  

智能视频分析:支持企业分析长篇会议录像或监控视频,自动标注关键事件(如“讨论预算的片段”),提升信息检索效率。  

教育与培训:解析教学视频,定位特定知识点或互动片段,生成定制化学习片段,适合在线教育平台。  

娱乐与推荐:优化TikTok等平台的视频推荐系统,通过语义与时间分析提升内容匹配精度,增强用户体验。

社区反馈显示,Vidi在处理长篇中文视频(如综艺节目)时表现尤为出色,其多语言支持(覆盖8种语言)进一步扩大了全球应用潜力。AIbase观察到,Vidi与字节的Doubao模型生态无缝集成,为商业化部署提供了坚实基础。

上手指南:开源支持,开发者友好

AIbase了解到,Vidi的代码与预训练模型将在GitHub开源(预计github.com/ByteDance-Seed/Vidi),支持PyTorch与VeOmni框架。开发者可按以下步骤快速上手:  

克隆Vidi仓库,安装Python3.9+与NVIDIA CUDA依赖;  

下载Youku-mPLUG或WebVid-10M数据集,配置时间检索任务;  

使用提供的vidi.yaml脚本运行推理,输入多模态提示(如“定位视频中演讲者提到AI的部分”);  

导出定位片段或编辑结果,支持MP4或JSON格式。

社区提供的Docker镜像与Hugging Face集成简化了部署流程,推荐硬件为NVIDIA A100(40GB)或RTX3090(24GB)。AIbase建议开发者优先测试Vidi在ActivityNet或EgoSchema数据集上的时间检索功能,以验证其性能优势。

性能对比:超越GPT-4o与Gemini

Vidi在时间检索任务上的性能表现尤为突出。AIbase整理了其与主流模型的对比:  

时间检索准确率:在ActivityNet数据集上,Vidi的准确率较GPT-4o高约10%,较Gemini1.5Pro高约12%,尤其在长视频(>30分钟)中表现稳定。  

处理速度:Vidi处理一小时视频的平均时间为5-7分钟(128GPUs),优于GPT-4o的8-10分钟,得益于分块注意力机制。  

多模态理解:Vidi在Youku-mPLUG的视频问答任务中,综合得分(结合视觉、音频、文本)超越Gemini1.5Pro约5%,与GPT-4o相当。  

社区分析认为,Vidi的性能优势源于其专注于视频领域的优化,而非通用的多模态设计,特别是在时间感知与长序列处理上更具针对性。AIbase预测,Vidi的开源将推动Vid-LLM领域的进一步竞争。

项目地址:https://bytedance.github.io/vidi-website/

猜你喜欢

金铲铲之战保镖学者阵容玩法攻略及组合技巧分享
金铲铲之战保镖学者阵容玩法攻略及组合技巧分享

金铲铲之战保镖学者这个阵容是后期比较强的,这个阵容的主要C位是大头黑默丁格,而玩家是可以选择用约德尔这个羁绊进行过渡的,

如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解
如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解

幻塔游戏中的料理很多,而蕨菜饼就是游戏中的料理之一,蕨菜饼可以让角色恢复一定的生命值,能够帮助玩家解决生命值低的问题,下

幻塔坚果茶的制作方法及其对健康的多重效果分析
幻塔坚果茶的制作方法及其对健康的多重效果分析

幻塔坚果茶是游戏中拥有回复血量作用的料理之一,坚果茶所需要的食材一共有三种,这三种都是比较稀有的食材,下面91小编带来幻

幻塔意志选择攻略:如何搭配意志才能取得最佳效果
幻塔意志选择攻略:如何搭配意志才能取得最佳效果

幻塔意志在游戏中是非常重要的,好的意志搭配可以让玩家提升很大的战力,意志主要的选择是金色和紫色,下面91小编带来幻塔意志

如何获得幻塔旅行者号外壳的详细攻略与获取途径
如何获得幻塔旅行者号外壳的详细攻略与获取途径

幻塔旅行者号外壳是游戏中载具的零件之一,这款载具外形还是非常好看的,很多玩家都想要入手这个旅行者号外壳,下面91小编带来

哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享
哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享

哈利波特魔法觉醒雪球大乱斗卡组是比较难搭配的,这个卡组的主要卡牌是飞沙走石,卡牌的强度不低获取也是比较容易的,下面91小

幻塔中芝麻的具体位置如何寻找,以及芝麻获取的详细方式与攻略
幻塔中芝麻的具体位置如何寻找,以及芝麻获取的详细方式与攻略

幻塔游戏中的食材有很多,而芝麻则是游戏中的非常稀有的一个食材,这个食材只能通过活动获得,但有不少的料理都需要用到芝麻,下

绝对演绎鲛人泪第二部第二十关详细通关攻略与技巧分享
绝对演绎鲛人泪第二部第二十关详细通关攻略与技巧分享

绝对演绎鲛人泪第二部第二十关是游戏中比较难的一个关卡,这个关卡有个特殊的条件就是情绪点减少15,下面91小编带来绝对演绎

绝对演绎维也纳的秘密信件线索究竟在哪里寻觅?
绝对演绎维也纳的秘密信件线索究竟在哪里寻觅?

绝对演绎维也纳的来信线索一共有4处,很多玩家都找不掉维也纳的来信线索,其实这4处线索都是比较好找的,下面91小编带来绝对

绝对演绎茶会茶点选择的最佳话题攻略及建议解析
绝对演绎茶会茶点选择的最佳话题攻略及建议解析

绝对演绎茶会茶点话题是需要玩家去选择的,选择好茶会茶点话题能够增加更多的好感度,很多玩家都容易选错茶会茶点话题,下面91