AI训练技术重大进展!全新CoMERA框架显著降低模型训练成本与资源消耗,实现高效智能化发展

训练大型AI模型(如Transformer和语言模型)已成为AI领域不可或缺的关键环节,但也面临着高昂的计算成本、内存消耗和能源需求。例如,OpenAI的GPT-3拥有1750亿个参数,需要数周的GPU训练。这种巨大的资源需求限制了这项技术在大规模计算资源充足的组织中的应用,同时也加剧了人们对能源效率和环境影响的担忧。解决这些挑战对于确保AI发展的更广泛可及性和可持续性至关重要。

传统训练方法效率低下,亟需创新解决方案

大型模型训练效率低下的主要原因在于其对稠密矩阵的依赖,这需要大量的内存和计算能力。现代GPU对优化的低精度或低秩操作支持有限,进一步加剧了这些需求。尽管已经提出了一些方法,如矩阵分解和启发式秩降低,来缓解这些问题,但它们在实际应用中仍然受到限制。例如,GaLore能够在单批次设置下进行训练,但存在不切实际的运行时开销。同样,采用低秩适配器的LTE在大型任务上的收敛性方面也存在问题。目前缺乏一种能够同时降低内存使用、计算成本和训练时间,而不损害性能的方法,这使得创新解决方案的需求变得迫切。

image.png

CoMERA框架:通过自适应张量优化实现高效训练

来自奥尔巴尼大学(纽约州立大学)、加州大学圣巴巴拉分校、亚马逊Alexa AI和Meta的研究人员共同推出了一种名为CoMERA(Computing-and Memory-Efficient training method via Rank-Adaptive tensor optimization)的新型框架。该框架结合了内存效率和计算速度,通过自适应秩张量压缩技术来实现。与传统方法仅关注压缩不同,CoMERA采用多目标优化方法来平衡压缩比和模型精度。它利用张量化嵌入和先进的张量网络收缩来优化GPU利用率,从而减少运行时开销,同时保持强大的性能。该框架还引入了CUDA图,以最大程度地减少GPU操作期间的内核启动延迟,这是传统张量压缩方法中的一个主要瓶颈。

image.png

CoMERA的基础是自适应张量表示,它允许模型层根据资源约束动态调整其秩。通过修改张量秩,该框架可以在不损害神经网络操作完整性的情况下实现压缩。这种动态优化是通过一个两阶段的训练过程实现的:

早期阶段:专注于稳定收敛。

后期阶段:微调秩以满足特定的压缩目标。

在一个六编码器Transformer模型中,CoMERA在其早期阶段实现了高达43倍的压缩比,而在其后期优化阶段,压缩比更是高达361倍。此外,与GaLore相比,它将内存消耗降低了9倍,每轮训练速度提高了2-3倍。

多项测试结果表明CoMERA性能卓越

在应用于MNLI数据集上训练的Transformer模型时,CoMERA将模型大小从256MB缩小到低至3.2MB,同时保持了精度。在诸如DLRM的大规模推荐系统中,CoMERA将模型压缩了99倍,并使峰值内存使用量减少了7倍。该框架还在预训练CodeBERT(一个特定领域的大型语言模型)方面表现出色,获得了4.23倍的整体压缩比,并在某些训练阶段实现了2倍的加速。这些结果突显了其处理各种任务和架构的能力,扩展了其在各个领域的适用性。

CoMERA框架的关键优势总结

这项研究的主要结论如下:

CoMERA为特定层实现了高达361倍的压缩比,为整个模型实现了99倍的压缩比,大大降低了存储和内存需求。

该框架将Transformer和推荐系统的每轮训练时间缩短了2-3倍,节省了计算资源和时间。

通过使用张量化表示和CUDA图,CoMERA将峰值内存消耗减少了7倍,使得在较小的GPU上进行训练成为可能。

CoMERA的方法支持包括Transformer和大型语言模型在内的多种架构,同时保持或提高了精度。

通过降低训练所需的能源和资源,CoMERA有助于实现更可持续的AI实践,并使更广泛的受众能够使用尖端模型。

猜你喜欢

如何在哈利波特魔法觉醒的幽谧深林中有效进行单人挑战攻略
如何在哈利波特魔法觉醒的幽谧深林中有效进行单人挑战攻略

哈利波特魔法觉醒幽谧深林为限时区域,挑战能够获得壁画、摆件等奖励,那么作为没好友的单机玩家,要怎么顺利过关呢哈利波特魔法

爆❌喷水❌洗澡❌怎么回事-你绝对想不到的秘密
爆❌喷水❌洗澡❌怎么回事-你绝对想不到的秘密

在日常生活中,洗澡是我们保持个人卫生和放松的一项重要活动。然而,有些人会体验到一种不同寻常的现象——爆❌喷水❌洗澡❌。这

梅花相伴:在关山之间铸造独特而脱俗的艺术人生
梅花相伴:在关山之间铸造独特而脱俗的艺术人生

著名国画家关山月:以梅为友,绘就艺术传奇关山月,一位在20世纪中国画坛举足轻重的艺术家,他的艺术生涯如同一幅波澜壮阔的画

黄金网站全新9.1入口免费开放,网友纷纷表示:“这样的操作真是颠覆我的认知!”
黄金网站全新9.1入口免费开放,网友纷纷表示:“这样的操作真是颠覆我的认知!”

大家好,今天给大家带来的内容可是一个“重磅新闻”!黄金网站9 1入口免费,这个全新上线的功能,让不少网友感到惊讶,甚至有

打工生活模拟器中搬砖王任务的详细攻略与完成方法分享
打工生活模拟器中搬砖王任务的详细攻略与完成方法分享

打工生活模拟器搬砖王是游戏中的一个任务,难度比较高,需要玩家不断搬砖赚钱,下面是详细的打工生活模拟器搬砖王达成攻略,一起

深圳坪山:麒麟舞姿翩翩,传承客家文化的浓厚年味情怀
深圳坪山:麒麟舞姿翩翩,传承客家文化的浓厚年味情怀

广东深圳坪山,一个承载着深厚客家文化的地域,每逢新春佳节,都会上演一场场热闹非凡的传统庆典。在这片土地上,客家人保留着独

如何高效利用成品网站1688免费入口网页版提升购物体验及技巧分享
如何高效利用成品网站1688免费入口网页版提升购物体验及技巧分享

在如今互联网飞速发展的时代,越来越多的用户选择通过各种网站进行在线购物。成品网站1688免费入口网页版作为一个受欢迎的电

黑暗与光明手游战士角色加点攻略及最强武器选择分析
黑暗与光明手游战士角色加点攻略及最强武器选择分析

黑暗与光明手游战士作为一个基础职业,有着十分平衡的数据,十分适合新手玩家。那么战士最佳的加点方式是什么?黑暗与光明战士武

张谷英村全国“村晚”精彩回顾:浓厚年味与热闹庙会融合,文创特产引人瞩目!
张谷英村全国“村晚”精彩回顾:浓厚年味与热闹庙会融合,文创特产引人瞩目!

岳阳张谷英村近日迎来了2025年全国春节“村晚”主场活动的盛大启幕,活动以“‘湘’当有味看村晚 千年古村过小年”为主题,

「种子搜索神器」成为新型消费陷阱,女生们为何纷纷陷入emo状态与无奈之中?
「种子搜索神器」成为新型消费陷阱,女生们为何纷纷陷入emo状态与无奈之中?

最近在社交平台刷到一个让人细思极恐的现象:越来越多女生在晒"种草"截图时附上过半划掉的价格线,紧接着自嘲式吐槽:"这波血