阿里通义万相Wan2.1-VACE正式开源,宣称为首款开源统一视频编辑模型,引领视频创作新纪元

通义万相宣布VACE开源,这标志着视频编辑领域迎来了一次重大的技术革新。此次开源的Wan2.1-VACE-1.3B支持480P分辨率,而Wan2.1-VACE-14B则支持480P和720P两种分辨率。VACE的出现,为用户带来了一站式的视频创作体验,用户无需在不同模型或工具之间频繁切换,即可完成文生视频、图像参考生成、局部编辑与视频扩展等多种任务,极大地提高了创作效率和灵活性。

VACE的强大之处在于其可控重绘能力,它能够基于人体姿态、运动光流、结构保持、空间运动、着色等控制生成,同时也支持基于主体和背景参考的视频生成。这使得在视频生成完成后,调整人物姿态、动作轨迹或场景布局等操作变得不再困难。VACE背后的核心技术是其多模态输入机制,它构建了一个集文本、图像、视频、Mask和控制信号于一体的统一输入系统。对于图像输入,VACE可支持物体参考图或视频帧;对于视频输入,用户可以通过抹除、局部扩展等操作,使用VACE重新生成;对于局部区域,用户可以通过0/1二值信号来指定编辑区域;对于控制信号,VACE支持深度图、光流、布局、灰度、线稿和姿态等。

微信截图_20250515081449.png

VACE不仅支持对视频中指定区域进行内容替换、增加或删除等操作,还能在时间维度上根据任意片段或首尾帧补全整个视频时长,在空间维度上支持对画面边缘或背景区域进行扩展生成,如背景替换——在保留主体不变的前提下,依据Prompt更换背景环境。得益于强大的多模态输入模块和Wan2.1的生成能力,VACE能够轻松驾驭传统专家模型能实现的功能,包括图像参考能力、视频重绘能力、局部编辑能力等。此外,VACE还支持多种单任务能力的自由组合,打破了传统专家模型各自为战的协作瓶颈。作为统一模型,它能够自然融合文生视频、姿态控制、背景替换、局部编辑等原子能力,无需为单一功能单独训练新模型。

VACE的灵活组合机制,不仅大幅简化了创作流程,也极大地拓展了AI视频生成的创意边界。例如,组合图片参考与主体重塑功能,可以实现视频中物体的替换;组合运动控制与首帧参考功能,可以实现静态图片的姿态控制;组合图片参考、首帧参考、背景扩展与时长延展功能,可以将竖版图拓展为横屏视频,并在其中加入参考图片中的元素。通过对四类常见任务(文生视频、图生视频、视频生视频、局部视频生视频)的输入形态进行分析和总结,VACE提出了一个灵活统一的输入范式——视频条件单元VCU。VCU将多模态的各类上下文输入总结成了文本、帧序列、mask序列三大形态,在输入形式上统一了4类视频生成与编辑任务。VCU的帧序列和Mask序列在数学上可以相互叠加,为多任务的自由组合创造了条件。

在技术实现方面,VACE需要解决的一大难题是如何将多模态输入统一编码为扩散Transformer可处理的token序列。VACE对VCU输入中的Frame序列进行概念解耦,将其分为需要原封不动保留的RGB像素(不变帧序列)和需要根据提示重新生成的内容(可变帧序列)。然后,分别对这三类输入(可变帧、不变帧、Mask)进行隐空间编码,其中可变帧和不变帧通过VAE被编码到与DiT模型噪声维度一致的空间,通道数为16;而mask序列则通过变形和采样操作,被映射到时空维度一致、通道数为64的隐空间特征。最后,将Frame序列和mask序列的隐空间特征合一,并通过可训练参数映射为DiT的token序列。

在训练策略上,VACE对比了全局微调与上下文适配器微调两种方案。全局微调通过训练全部DiT参数,能取得更快的推理速度;而上下文适配器微调方案是固定原始的基模型参数,仅选择性地复制并训练一些原始Transformer层作为额外的适配器。实验表明,两者在验证损失上差异不大,但上下文适配器微调具有更快的收敛速度,且避免了基础能力丢失的风险。因此,本次开源版本采用了上下文适配器微调方法进行训练。通过本次发布的VACE系列模型定量评测可以看出,相比1.3Bpreview版本,模型在多个关键指标上均有明显提升。

- GitHub:https://github.com/Wan-Video/Wan2.1

- 魔搭:https://modelscope.cn/organization/Wan-AI

- Hugging Face:https://huggingface.co/Wan-AI

- 国内站:https://tongyi.aliyun.com/wanxiang/

- 国际站:https://wan.video

猜你喜欢

明日之后钓鱼高手任务详解及高效完成攻略分享
明日之后钓鱼高手任务详解及高效完成攻略分享

明日之后钓鱼高手任务怎么做?相信还有不少小伙伴还没完成这个高手任务吧,那么明日之后钓鱼高手任务怎么做呢?下面小编为大家带

精灵宝可梦LetsGo中的阿罗拉雷丘性能评测及最佳技能搭配方案推荐
精灵宝可梦LetsGo中的阿罗拉雷丘性能评测及最佳技能搭配方案推荐

最近玩精灵宝可梦LetsGo的小伙伴不知道皮卡丘伊布中雷丘,那么皮卡丘伊布中雷丘怎么样呢?接下来与91单机小编一起来看看

明日之后汽油桶的最佳放置位置与合理放置方式指南
明日之后汽油桶的最佳放置位置与合理放置方式指南

相信最近玩明日之后游戏的小伙伴不知道汽油桶,那么汽油桶怎么找呢?接下来与91单机小编一起来看看吧!明日之后汽油桶是一个很

王者荣耀QQ区何时开放游戏 王者荣耀2018年最新活动信息汇总
王者荣耀QQ区何时开放游戏 王者荣耀2018年最新活动信息汇总

最近玩王者荣耀的小伙伴不知道qq区怎么样。那么qq区可以玩了吗?接下来与91单机小编一起来看看吧!!王者荣耀正常维护是不

当ZEPETO无法识别脸部特征时该如何处理?探索有效的解决方法与技巧
当ZEPETO无法识别脸部特征时该如何处理?探索有效的解决方法与技巧

zepeto识别不了人脸怎么办?很多玩家都不太了解,今天91小编就给大家带来了zepeto识别不了人脸解决技巧,一起来看

LOL艾克最佳出装攻略分享:轻松掌握六神装搭配与实战技巧
LOL艾克最佳出装攻略分享:轻松掌握六神装搭配与实战技巧

艾克是LOL游戏中的一个刺客英雄,技能很强势,很多玩家都很喜欢,那么在游戏中艾克怎么出装比较好呢?这边梦之都小编给大家介

如何在不思议迷宫中获得藤蔓的实用技巧与详细攻略分享
如何在不思议迷宫中获得藤蔓的实用技巧与详细攻略分享

藤蔓是不思议迷宫游戏中的一个道具,但是不少小伙伴都不知道在不思议迷宫中藤蔓怎么获取呢?具体有什么用?那么今天梦之都小编就

王者荣耀浓情玫瑰的获取方式详解 让你轻松拥有浓情玫瑰的方法一览
王者荣耀浓情玫瑰的获取方式详解 让你轻松拥有浓情玫瑰的方法一览

王者荣耀浓情玫瑰是游戏中新上线的一件活动道具,很多玩家都不清楚该怎么获得?下面小编为大家分享一篇王者荣耀浓情玫瑰的相关攻

王者荣耀新英雄盘古是否值得购买?技能与属性详细解析
王者荣耀新英雄盘古是否值得购买?技能与属性详细解析

很多小伙伴都知道盘古是最新上线体验服的新英雄,很多小伙伴对其都非常好奇。而盘古作为传说中的大神人物,相信技能属性会非常的

如何打开王者荣耀中的魔法球以及魔法球的开启时间是什么时候
如何打开王者荣耀中的魔法球以及魔法球的开启时间是什么时候

相信在王者荣耀游戏中很多小伙伴不知道魔法球吧,那么魔法球怎么打不开呢?是什么原因呢?接下来与91单机小编一起来看看吧!!