月之暗面与UCLA合作推出新型Mixture-of-Expert模型,显著提升语言模型训练效率的创新策略

在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此,迫切需要更高效、更稳定的优化技术来应对这些复杂性。

为了解决这些挑战,Moonshot AI (月之暗面)与加州大学洛杉矶分校(UCLA)联合开发了 Moonlight,一个使用 Muon 优化器的 Mixture-of-Expert(MoE)模型。Moonlight 提供两种配置:一种是激活参数为30亿,另一种为总参数为160亿,训练使用了5.7万亿个标记。Muon 优化器的创新在于利用牛顿 - 舒尔茨迭代法进行矩阵正交化,确保梯度更新在模型参数空间中的均匀性。这种改进为传统的 AdamW 提供了一个有前景的替代方案,提高了训练效率和稳定性。

QQ_1740360210200.png

在技术细节上,Moonlight 对 Muon 优化器进行了两项关键调整。首先,引入了权重衰减技术,以控制大模型和大量标记训练时权重的增长。其次,针对每个参数的更新幅度进行了校准,使其根据权重矩阵的最大维度的平方根进行缩放,从而实现更新的一致性。

通过对 Moonlight 的实证评估,研究人员发现其在中间检查点的表现优于传统的 AdamW 训练模型。例如,在语言理解任务中,Moonlight 在 MMLU 基准测试上获得了更高的分数。在代码生成任务中,性能提升更加明显,表明 Muon 的优化机制对任务表现有积极贡献。

Moonlight 项目的成功实施将为大型语言模型的训练带来新的标准。Muon 优化器的开源实现以及预训练模型和中间检查点的发布,预期将促进对可扩展优化技术的进一步研究。

github:https://github.com/MoonshotAI/Moonlight?tab=readme-ov-file

huggingface:https://huggingface.co/moonshotai/Moonlight-16B-A3B

论文:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

划重点:  

🌟 Moonlight 模型是由 Moonshot AI 与 UCLA 联合开发的 Mixture-of-Expert 模型,提供30亿和160亿参数配置,训练使用5.7万亿个标记。  

⚙️ Muon 优化器通过牛顿 - 舒尔茨迭代法和权重衰减技术,显著提高了大型模型训练的效率和稳定性。  

📈 实证结果显示,Moonlight 在多个任务上优于传统的 AdamW 训练模型,表现出更好的语言理解和代码生成能力。

猜你喜欢

中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力
中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力

在现代职场环境中,领导者的影响力往往超越个人的成就,展现团队的成功才是衡量杰出管理者的重要标准。中字hd的丈夫作为行业中的佼佼者,其

外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计
外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计

电子游戏作为一种新兴的艺术形式,近年来迅速崛起,成为全球文化现象的重要组成部分。从早期的像素艺术到如今的高清3D画面,游戏的视觉效果

《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法
《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法

在当今快节奏的生活中,社交游戏已经成为一种新兴的娱乐方式,尤其是那些能够引发思考与交流的游戏更是备受玩家青睐。《老公请部长家里吃饭

亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)
亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)

在今天的数字时代,游戏不仅仅是消遣娱乐的工具,它更是一个深蕴文化和情感的载体。从简单的图形和音效演变为如今复杂的多维度世界,游戏的

春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界
春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界

在第30个世界读书日即将到来之际,南通市崇川区举办了一场别开生面的全民阅读推广活动,为春日阅读增添了一抹独特的色彩。4月

圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾
圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾

在东方园林艺术的璀璨星河中,18世纪的圆明园无疑是最为耀眼的明珠之一。而提及圆明园,便不得不提清代画家陈枚的杰出作品——

常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境
常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境

在当代国画艺术的璀璨星河中,常波以其“鸿运当头鲤鱼”系列作品脱颖而出,犹如一颗耀眼的星辰,以其深厚的文化底蕴和独特的艺术

放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织
放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织

在欣赏艺术品的微妙之处时,细节往往成为决定作品成败的关键。尤其是名画,其细节不仅体现了艺术家的匠心独运,还往往隐藏着背后

华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇
华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇

在书法艺术的浩瀚星空中,又一颗璀璨之星悄然升起。华一民,这位来自江苏无锡却在浙江杭州诞生的艺术家,如今在重庆南岸区安享晚

瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力
瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力

瑞安春色正浓,踏青赏花正当时。这座位于东南沿海的城市,因其温润的气候和充沛的雨水,孕育了众多奇花异卉,成为春日里一道亮丽