字节跳动新推出的开源AI模型LatentSync 实现精准控制唇形同步技术,提升视频表现力

字节跳动近日开源了一项名为 LatentSync 的创新技术,该技术是一种基于音频条件的潜在扩散模型的端到端唇同步框架。这项技术无需任何中间运动表示,即可实现视频中人物唇部动作与音频的精准同步。与以往基于像素空间扩散或两阶段生成的唇同步方法不同,LatentSync 直接利用了 Stable Diffusion 的强大功能,能更有效地建模复杂的视听关联。

image.png

研究发现,基于扩散的唇同步方法在时间一致性方面表现不佳,因为不同帧之间的扩散过程存在不一致性。为了解决这个问题,LatentSync 引入了时间表示对齐 (TREPA) 技术。TREPA 利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性,同时保持唇同步的准确性。

此外,研究团队还深入研究了 SyncNet 的收敛问题,并通过大量的实证研究,确定了影响 SyncNet 收敛的关键因素,包括模型架构、训练超参数和数据预处理方法。通过优化这些因素,SyncNet 在 HDTF 测试集上的准确率从91% 显著提升至94%。由于没有改变 SyncNet 的整体训练框架,这项经验也可应用于其他利用 SyncNet 的唇同步和音频驱动的人像动画方法。

LatentSync 的优势

端到端框架:无需中间运动表示,直接从音频生成同步的唇部动作。

高质量生成:利用 Stable Diffusion 的强大能力,生成动态逼真的说话视频。

时间一致性:通过 TREPA 技术,增强视频帧之间的时间一致性。

SyncNet 优化:解决了 SyncNet 的收敛问题,显著提高了唇同步的准确性。

工作原理

LatentSync 的核心是基于图像到图像的修复技术,需要输入带遮罩的图像作为参考。为了整合原始视频的人脸视觉特征,模型还会输入参考图像。这些输入信息经过通道拼接后,输入到 U-Net 网络中进行处理。

模型使用预训练的音频特征提取器 Whisper 来提取音频嵌入。唇部动作可能受到周围帧音频的影响,因此模型会捆绑多个周围帧的音频作为输入,以提供更多的时间信息。音频嵌入通过交叉注意力层整合到 U-Net 中。

为了解决 SyncNet 需要图像空间输入的问题,模型会先在噪声空间进行预测,然后通过单步方法获得估计的干净潜在空间。研究发现,在像素空间训练 SyncNet 比在潜在空间训练效果更好,这可能是因为 VAE 编码过程中会丢失唇部区域的信息。

训练过程分为两个阶段:第一阶段 U-Net 学习视觉特征,不进行像素空间解码和添加 SyncNet 损失。第二阶段使用解码的像素空间监督方法添加 SyncNet 损失,并使用 LPIPS 损失来提高图像的视觉质量。为了确保模型正确学习时间信息,输入的噪声也需要具有时间一致性,模型采用了混合噪声模型。此外,在数据预处理阶段,还使用了仿射变换来实现人脸正面化。

TREPA 技术

TREPA 通过对齐生成图像序列和真实图像序列的时间表示来提高时间一致性。该方法使用大型自监督视频模型 VideoMAE-v2来提取时间表示。与仅使用图像之间距离损失的方法不同,时间表示可以捕捉图像序列中的时间相关性,从而提高整体时间一致性. 研究发现,TREPA 不仅不会损害唇同步的准确性,反而可以有所提高。

SyncNet 收敛问题

研究发现,SyncNet 的训练损失容易停留在0.69附近,无法进一步下降。通过大量的实验分析,研究团队发现,批次大小、输入帧数和数据预处理方法对 SyncNet 的收敛有显著影响。模型架构也会影响收敛,但影响较小。

实验结果表明,LatentSync 在多个指标上都优于其他最先进的唇同步方法。特别是在唇同步准确性方面,这归功于其优化的 SyncNet 和音频交叉注意层,可以更好地捕捉音频和唇部动作之间的关系。此外,由于采用了 TREPA 技术,LatentSync 的时间一致性也得到了显著提高。

项目地址:https://github.com/bytedance/LatentSync

猜你喜欢

跨越千年的艺术交流,程剑深入分享宋代绘画临摹旅程中的点滴感悟与心得
跨越千年的艺术交流,程剑深入分享宋代绘画临摹旅程中的点滴感悟与心得

在北京的颐和园西堤附近,有一位地道的“北京大妞”程剑,她自幼便与绘画结下了不解之缘。她的成长环境中,四季变换的自然景色如

二胡琴弦历经千年演变:丝弦与钢弦的对比,究竟哪一者才是民族音乐的灵魂所在?
二胡琴弦历经千年演变:丝弦与钢弦的对比,究竟哪一者才是民族音乐的灵魂所在?

二胡琴弦的演变:从丝弦到钢弦的文化探索二胡,这一源自中国古代边陲的弓弦乐器,经过千年的发展与演变,其琴弦材质的变化不仅见

华喦花鸟艺术:通过细腻笔触展现自然生命的灵性与活泼之美
华喦花鸟艺术:通过细腻笔触展现自然生命的灵性与活泼之美

在清代康熙中期至乾隆末年的扬州地区,涌现出了一批风格独特的书画家,他们被后人统称为“扬州八怪”。这批艺术家虽然人生经历多

郎朗携手辉煌共迎新年,通过音乐重塑昔日荣光,携手踏上光明未来的旅程
郎朗携手辉煌共迎新年,通过音乐重塑昔日荣光,携手踏上光明未来的旅程

在近日举办的与辉同行跨年音乐会上,谁成为了真正的赢家?这一问题的答案并非单一。网友们纷纷将目光投向了一位名不见经传的带货

青绿山水画创作全解析:掌握小青绿、没骨与大青绿技法的绘画步骤与技巧
青绿山水画创作全解析:掌握小青绿、没骨与大青绿技法的绘画步骤与技巧

中国传统绘画艺术中,小青绿山水画以其独特的韵味和精细的技法深受喜爱。近日,我们有幸了解到小青绿山水画以及其他几种山水画画

说唱音乐剧《愚公移山》在郑州盛大上演,古老寓言故事与当代文化的激烈碰撞引发观众热烈反响
说唱音乐剧《愚公移山》在郑州盛大上演,古老寓言故事与当代文化的激烈碰撞引发观众热烈反响

在郑州河南艺术中心大剧院,一场别开生面的艺术盛宴于近日拉开帷幕,这便是2024年度国家艺术基金资助项目、同时也是河南省重

书法之美与墨韵交融:透视董发亮眼中的田继光艺术境界
书法之美与墨韵交融:透视董发亮眼中的田继光艺术境界

近日,一位跨界艺术家的书法作品在书法界引起了广泛关注,他就是兼具诗人气质与军人风骨的田继光先生。田继光,以其深厚的文化底

在京郊隐居的书画大家,这位新兴书法篆刻大师是如何崭露头角、引领新风潮的?
在京郊隐居的书画大家,这位新兴书法篆刻大师是如何崭露头角、引领新风潮的?

在当代艺术界,王镛先生以其卓越的书画篆刻技艺和深厚的文化底蕴,成为了备受瞩目的名家。作为李可染首届书画篆刻研究生的他,如

陕西中国画山水展展现长安画坛新风贯穿传统与现代艺术的精彩盛宴,诚邀您莅临共赏
陕西中国画山水展展现长安画坛新风贯穿传统与现代艺术的精彩盛宴,诚邀您莅临共赏

近日,由西安市黄土画派美术博物馆与臻品水墨杂志联合主办的“画说长安——陕西中国画山水专题邀请展”在亮宝楼艺术博物馆盛大开

探秘张大千《江山无尽图》的精美细节:专家估价高达15亿,你会为这幅作品支付如此巨额费用吗?
探秘张大千《江山无尽图》的精美细节:专家估价高达15亿,你会为这幅作品支付如此巨额费用吗?

在现代艺术领域中,提及绘画大师,毕加索的名字往往首当其冲。作为西方现代艺术的标志性人物,他的《格尔尼卡》与《亚威农少女》