颠覆创意制作!阿里巴巴推出 VACE 模型实现文本、图像与视频的统一智能处理

阿里巴巴集团的科学家们推出了 VACE,这是一种旨在统一处理广泛视频生成和编辑任务的通用人工智能模型。

VACE 的核心是增强的扩散 Transformer 架构,其创新之处在于“视频条件单元”(VCU)这一新型输入格式。VCU 将文本提示、参考图像或视频序列以及空间蒙版等多种模态输入提炼为统一的表示,并通过专门的机制协调不同输入,避免冲突。

概念解耦实现精细控制

VACE 采用“概念解耦”技术将图像分割为可编辑和固定区域,实现对修改内容和保留内容的精细控制。视觉信息通过遮罩划分为“活性”和“非活性”区域,并嵌入共享特征空间,与文本输入结合。为保证视频帧间一致性,特征映射到与扩散 Transformer 结构匹配的潜在空间,时间嵌入层确保模型理解序列的时间连贯性,注意力机制则关联不同模态和时间步的特征。

VACE 支持文本到视频生成、基于参考的视频合成、视频到视频编辑以及基于遮罩的目标编辑等四大核心任务,应用场景广泛,包括人物移除、动画角色生成、物体替换和背景扩展等。

QQ20250423-102200.png

模型训练与评估

研究团队首先专注于绘画和涂鸦以支持文本到视频,然后逐步加入参考图像并转向更高级的编辑任务。训练数据来源于互联网视频,经过自动过滤、分割和深度、姿态注释增强。为了评估 VACE 的性能,研究人员创建了一个包含480个案例、涵盖12个视频编辑任务的基准。实验结果表明,VACE 在定量指标和用户研究方面均优于专门的开源模型,但在参考到视频的生成方面仍与 Vidu 和 Kling 等商业模型存在差距。

阿里巴巴的研究人员认为 VACE 是通往通用、多模态视频模型的重要一步,未来将通过更大的数据集和更多算力进行扩展。该模型的部分代码将在 GitHub 上开源。VACE 与阿里巴巴近期发布的一系列大型语言模型(如 Qwen 系列)共同构成了其宏大的人工智能战略布局。包括字节跳动在内的其他中国科技巨头也在积极发展视频人工智能技术,部分成果已赶超西方同类产品。

猜你喜欢

色系视频:探索色彩之间的魅力,揭示色彩对情感的深刻影响
色系视频:探索色彩之间的魅力,揭示色彩对情感的深刻影响

色彩的世界宛如一幅永不褪色的画卷,它以独特的方式影响着我们的情绪与感知。人们在日常生活中,对于色彩的选择往往不仅仅是为了美观,更是

小蜜桃:甜美滋味背后的营养价值与健康功效探秘
小蜜桃:甜美滋味背后的营养价值与健康功效探秘

小蜜桃乃水果之中的翘楚,其色泽粉红,果肉柔嫩,味道甘甜且清香扑鼻。小蜜桃为人所喜,其果汁四溢,堪称夏日之佳品。然其背后之营养与健康

金铲铲之战保镖学者阵容玩法攻略及组合技巧分享
金铲铲之战保镖学者阵容玩法攻略及组合技巧分享

金铲铲之战保镖学者这个阵容是后期比较强的,这个阵容的主要C位是大头黑默丁格,而玩家是可以选择用约德尔这个羁绊进行过渡的,

如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解
如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解

幻塔游戏中的料理很多,而蕨菜饼就是游戏中的料理之一,蕨菜饼可以让角色恢复一定的生命值,能够帮助玩家解决生命值低的问题,下

幻塔坚果茶的制作方法及其对健康的多重效果分析
幻塔坚果茶的制作方法及其对健康的多重效果分析

幻塔坚果茶是游戏中拥有回复血量作用的料理之一,坚果茶所需要的食材一共有三种,这三种都是比较稀有的食材,下面91小编带来幻

幻塔意志选择攻略:如何搭配意志才能取得最佳效果
幻塔意志选择攻略:如何搭配意志才能取得最佳效果

幻塔意志在游戏中是非常重要的,好的意志搭配可以让玩家提升很大的战力,意志主要的选择是金色和紫色,下面91小编带来幻塔意志

如何获得幻塔旅行者号外壳的详细攻略与获取途径
如何获得幻塔旅行者号外壳的详细攻略与获取途径

幻塔旅行者号外壳是游戏中载具的零件之一,这款载具外形还是非常好看的,很多玩家都想要入手这个旅行者号外壳,下面91小编带来

哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享
哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享

哈利波特魔法觉醒雪球大乱斗卡组是比较难搭配的,这个卡组的主要卡牌是飞沙走石,卡牌的强度不低获取也是比较容易的,下面91小

幻塔中芝麻的具体位置如何寻找,以及芝麻获取的详细方式与攻略
幻塔中芝麻的具体位置如何寻找,以及芝麻获取的详细方式与攻略

幻塔游戏中的食材有很多,而芝麻则是游戏中的非常稀有的一个食材,这个食材只能通过活动获得,但有不少的料理都需要用到芝麻,下

绝对演绎鲛人泪第二部第二十关详细通关攻略与技巧分享
绝对演绎鲛人泪第二部第二十关详细通关攻略与技巧分享

绝对演绎鲛人泪第二部第二十关是游戏中比较难的一个关卡,这个关卡有个特殊的条件就是情绪点减少15,下面91小编带来绝对演绎