Stability AI发布轻量级341M文字转语音模型,支持手机本地运行,实现8秒快速音频生成!

Stability AI最近又开源了一个模型,名字有点长,叫“Adversarial Post-Training 加速的快速文字转音频生成”,听起来很硬核对不对?但你只需要记住它的核心特点:超!级!快!而!且!超!级!轻!

以前我们用的文字转语音,就像老式的烧水壶,得等半天才能咕嘟咕嘟地出声。而且那些高质量的模型,往往体型巨大,像个“胖墩”,塞到手机里根本跑不动。这让很多需要实时生成音频的创意应用(比如音乐制作、游戏音效)非常头疼,延迟太高,根本没法用!

1.jpg

论文地址:https://arxiv.org/pdf/2505.08175

模型地址:https://huggingface.co/stabilityai/stable-audio-open-small

Stability AI 这次就是要终结这个“龟速时代”!他们发布了一个只有341M 参数的文字转语音模型(这在动辄几十亿、上千亿参数的模型面前,简直就是个“苗条精”!),最关键的是,它能以惊人的速度生成高质量音频!

“闪电小子”为啥这么快?秘密武器大公开!

这个“闪电小子”为啥能跑这么快呢?它藏着几个秘密武器:

ARC 后训练:不是蒸馏,胜似蒸馏! 

很多让模型变快的方法,常用的是“蒸馏”,就是让一个大模型(老师)教一个小模型(学生)怎么快速生成结果。但这套方法有点麻烦,要么训练成本高,要么需要存储大量老师生成的“作业”。Stability AI 搞了个新花样,叫做 ARC(Adversarial Relativistic-Contrastive)后训练。  这是一种对抗性加速算法,不!基!于!蒸!馏! 它让模型在训练后变得更快,而且效果一点不输那些复杂的蒸馏方法。   

相对抗性损失:跟“以假乱真”对着干! 

ARC 里面的“AR”就是“对抗性相对损失”。  传统的对抗网络(GAN)是生成器努力生成逼真的假样本骗过判别器,判别器努力区分真假。这个“相对抗性损失”更狠!它让生成器不仅要生成逼真的样本,还要让生成的样本比真实样本更“真”!而判别器呢,就是要让真实样本比生成的样本更“真”!  它们之间就像在比谁更能“以假乱真”,但这个“真”是相对的。  这个想法很有趣,它迫使生成器不断提高生成音频的质量。而且,因为是文字转语音模型,他们直接用相同文字描述的真实音频和生成音频来做对比,提供了更强的训练信号。    

image.png

对比损失:让模型“听懂人话”! 

光是生成逼真的音频还不够,还得“听懂人话”,生成符合文字描述的声音。传统的对抗性训练有时候会忽略文字信息,生成一些不搭边的声音。为了解决这个问题,ARC 加入了“对比损失”。  它训练判别器,让判别器能区分带有正确文字描述的音频和带有错误文字描述(比如文字被打乱了)的音频。  判别器会努力让正确配对的音频和文字之间的距离更近,错误配对的距离更远。  这就像训练判别器成为一个音频-文字的“对对碰”专家,让它更好地理解文字的含义。  有了这个“专家”的指导,生成器就能更好地生成符合文字描述的音频了。  而且,这种方法还能避免使用 CFG(Classifier-Free Guidance),那玩意儿虽然能提高文本一致性,但有时候会牺牲生成的多样性。    

乒乓采样:左右腾挪,步步逼近! 

传统的扩散模型生成音频需要很多步,一步步去噪。这个“闪电小子”用了“乒乓采样”的技术。  它不是简单的一步去噪到底,而是在去噪和加噪之间来回切换,有点像打乒乓球,在不同噪声水平之间来回“击打”,每击打一次,生成的音频就更接近真实,质量就更高。  而且,它可以用更少的步数达到很好的效果。    

架构优化:“苗条”又强壮! 

除了新的训练方法,模型本身的架构也进行了优化,是在 Stable Audio Open (SAO) 的基础上进行了改进。  工程师们把模型的一些“零部件”做得更小巧高效,比如把 Diffusion Transformer (DiT) 的维度和层数都减少了,还加入了一些新的技术让它更稳定。  这些优化让模型的参数数量大大减少,只有341M,同时又不牺牲性能。   

性能炸裂:H100上75毫秒,手机上7秒!

这些秘密武器加起来,就让这个模型的速度快到惊人!在专业的 H100GPU 上,它可以在大约75毫秒内生成12秒的44.1kHz 立体声音频!  这是什么概念?比原始的 SAO 模型快了100倍!  几乎是瞬间生成!   

更厉害的是,他们还专门针对移动设备进行了优化。在手机 CPU 上,它也能在大约7秒内生成12秒的音频!  这可能是目前最快的手机端文字转语音模型了!  想象一下,以后你在手机上用各种创意应用,实时生成想要的音效或音乐片段,再也不是梦想!   

而且,这个模型在保证速度的同时,并没有明显牺牲音频质量。  论文中各种专业的音频评估指标(比如 FD openl3 、KL-passt、CLAP score)显示,它的音频质量可以和那些更大的、更慢的模型相媲美。    

image.png


多样性爆棚:不仅快,而且脑洞大开!

很多加速模型为了追求速度,会牺牲生成结果的多样性,生成的声音听起来都差不多,很无聊。但这个“闪电小子”不一样!它不仅速度快,生成的声音多样性还更高!    

论文中提出了一个新的评估指标 CCDS(CLAP Conditional Diversity Score),专门用来衡量模型在给定相同文字描述下生成不同声音的能力。  结果显示,这个模型在 CCDS 上的得分很高,而且通过主观听力测试也证实了这一点——大家觉得它生成的声音更多样、更有创意!  这意味着,如果你输入一段文字,让它生成一种声音,它可能会给你好几种不同风格、不同感觉的结果,大大激发你的创作灵感!   

更多惊喜:音频转音频,玩转声音风格!

除了文字转语音,这个模型还有一个隐藏技能——音频转音频!  简单来说,你可以给它一段音频作为输入,然后用文字描述你想要的声音风格,它就能把输入的音频转换成新的风格!    

比如,你可以输入一段自己的说话声,然后用文字描述“变成机器人的声音”,它就能给你一段机器人版的说话声!或者输入一段鼓点,用文字描述“变成拉丁风格的鼓点”,它就能给你一段充满拉丁风情的鼓点!  这简直就是声音界的“风格迁移”,太酷炫了!而且这个功能不需要额外的训练,直接就能用!    

落地应用:手机里的“声音魔法师”!

这个超快、超轻、高质量的模型,为文字转语音技术的落地应用打开了新的大门。尤其是在移动设备上,以前受限于算力,很难运行复杂的音频生成模型。现在,有了这个“闪电小子”,你的手机可以变成一个强大的“声音魔法师”,随时随地帮你生成各种创意音频。

想象一下,你可以在手机上实时为视频配音,为游戏生成独特的音效,或者仅仅是玩转各种有趣的声音效果。而且因为它对文字描述的理解能力强,你可以更精准地控制生成的声音。

当然,目前模型还有一些需要改进的地方,比如它对内存和存储空间还有一定的要求。  但 Stability AI 已经迈出了关键的一步,让高性能的文字转语音技术真正走进了寻常百姓家(的手机里)!   

小小的模型,大大的能量!

Stability AI 开源的这个341M 超轻量文字转语音模型,无疑是一个重磅炸弹!它通过创新的 ARC 后训练方法,实现了令人惊叹的速度和多样性,同时保持了高质量的音频输出。  它的轻量化设计和在移动设备上的出色表现,预示着文字转语音技术将在更多创意应用中大放异彩。   

未来,我们可以期待这个模型在更多场景下大显身手,让我们的世界变得更加“声”动有趣!

猜你喜欢

末世王者资源获取的最佳途径和高效采集技巧揭秘
末世王者资源获取的最佳途径和高效采集技巧揭秘

末世王者玩家需要采集许多资源发展,要如何有效获取更多资源呢,91单机小编给大家带来末世王者资源采集技巧。探索末世生存之道

如何攻克龙之矛异界中的门?掌握深渊十一关通关技巧的方法和策略
如何攻克龙之矛异界中的门?掌握深渊十一关通关技巧的方法和策略

龙之矛异界的门作为深渊十一关BOSS难度不高,但是小怪十分麻烦,91单机小编给大家带来龙之矛异界的门打法。异界的门打法攻

明日之后如果马匹逃跑了该如何处理?什么情况下会导致马匹逃离主人?
明日之后如果马匹逃跑了该如何处理?什么情况下会导致马匹逃离主人?

明日之后马是新上线的坐骑。有时候会逃跑,如何防止呢?91单机小编给大家带来明日之后马逃跑方法《明日之后》防止马逃跑方法介

荒野行动使徒袭来模式的玩法攻略以及具体的限时开启时间是什么时候?
荒野行动使徒袭来模式的玩法攻略以及具体的限时开启时间是什么时候?

荒野行动使徒袭来模式是6月的特别玩法,吸引了很多玩家,要怎么玩呢,91单机小编给大家带来荒野行动使徒袭来模式玩法攻略的详

剑网3指尖江湖凤凰胎的制作方法详解及其配方介绍
剑网3指尖江湖凤凰胎的制作方法详解及其配方介绍

在剑网3指尖江湖游戏中玩家可以做出很多的菜为自己增加不少的属性和效果是很多小伙伴都知道的,其中凤凰胎就是其中之一,它的宴

王者荣耀孙膑星之队新皮肤即将上线时间解析,揭晓孙膑新皮肤发布的详细信息和时间安排
王者荣耀孙膑星之队新皮肤即将上线时间解析,揭晓孙膑新皮肤发布的详细信息和时间安排

王者荣耀孙膑是稷下星之队队服,孙膑星之队皮肤是云端梦境中的高级梦境神秘皮肤,目前已经基本上确定了,很多玩家都在关注孙膑星

问道手游天技十万火急技能效果解析及实用性评估,是否值得提升?
问道手游天技十万火急技能效果解析及实用性评估,是否值得提升?

问道手游天技十万火急有什么用?想必还有不少小伙伴不太清楚,一起来了解一下吧。 问道手游天技十万火急有什么用对己方使用,能

奥拉星手游小宇宙的高效刷法详解与玩法技巧介绍
奥拉星手游小宇宙的高效刷法详解与玩法技巧介绍

奥拉星手游小宇宙怎么得?小宇宙怎么样?值不值得玩家操作和入手呢?这是不少玩家的疑问,不了解该亚比是否强势。因此,为了帮助

食物语诗礼银杏膳具的选购指南与推荐方法详解,助你更好地选择心仪的银杏膳具
食物语诗礼银杏膳具的选购指南与推荐方法详解,助你更好地选择心仪的银杏膳具

食物语诗礼银膳具怎么选择比较好呢?想必还有许多小伙伴不清楚吧,下面91小编给大家分享一下诗礼银杏的相关信息。人人都会有的

魔兽世界米奈特卡加德任务的具体位置及详细攻略流程解析
魔兽世界米奈特卡加德任务的具体位置及详细攻略流程解析

《魔兽世界》中米奈特卡加德任务的流程是什么?想知道就和小编一起来看看吧。等级要求:10阵营要求:部落任务开始:马里恩·考