新框架D1推动扩散模型推理革新,引发强化学习应用的新潮流

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。

image.png

这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。在第一阶段,模型通过高质量的推理轨迹进行监督微调,从而掌握基础知识和逻辑推理能力。接着,在第二阶段,研究者们引入了一种名为 diffu-GRPO 的新型策略梯度方法,这一方法专门针对掩码 dLLM 进行了优化,大幅提高了推理效率。

与以往的研究相比,d1的提出旨在解决扩散模型在强化学习后训练中的挑战。传统的自回归模型通过对生成序列的对数概率进行计算,从而优化模型的输出,而 dLLM 则因其迭代生成的特性,面临计算上的困难。为此,研究团队开发了一种高效的对数概率估计器,通过独立计算每个 token 的概率,极大地减少了计算时间并提高了训练效率。

image.png

在实验中,研究者使用 LLaDA-8B-Instruct 作为基础模型,比较了 d1-LLaDA 与仅使用 SFT 或 diffu-GRPO 训练的模型。结果显示,d1-LLaDA 在多个数学和逻辑推理测试中表现优异,远超基础模型和单一方法。这一组合式的方法不仅增强了模型的推理能力,还展示了良好的协同效应。

随着 d1框架的推出,扩散模型在推理任务中的表现将迎来新的提升,也为后续的研究提供了广阔的空间。研究者们相信,这一创新的框架将推动语言模型的进一步发展,助力更复杂的推理和逻辑任务的实现。

项目地址:https://top.aibase.com/tool/d1

猜你喜欢

多人运动罗志祥:激情与挑战交织的演绎之路
多人运动罗志祥:激情与挑战交织的演绎之路

多人运动罗志祥者,华夏间一代风华之翘楚,既才艺横溢,亦性情奔放,善于于众人共舞于热血之中。其演绎之旅,犹如一场绚丽之盛宴,激励无数

色系视频:探索色彩之间的魅力,揭示色彩对情感的深刻影响
色系视频:探索色彩之间的魅力,揭示色彩对情感的深刻影响

色彩的世界宛如一幅永不褪色的画卷,它以独特的方式影响着我们的情绪与感知。人们在日常生活中,对于色彩的选择往往不仅仅是为了美观,更是

小蜜桃:甜美滋味背后的营养价值与健康功效探秘
小蜜桃:甜美滋味背后的营养价值与健康功效探秘

小蜜桃乃水果之中的翘楚,其色泽粉红,果肉柔嫩,味道甘甜且清香扑鼻。小蜜桃为人所喜,其果汁四溢,堪称夏日之佳品。然其背后之营养与健康

金铲铲之战保镖学者阵容玩法攻略及组合技巧分享
金铲铲之战保镖学者阵容玩法攻略及组合技巧分享

金铲铲之战保镖学者这个阵容是后期比较强的,这个阵容的主要C位是大头黑默丁格,而玩家是可以选择用约德尔这个羁绊进行过渡的,

如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解
如何制作美味的幻塔蕨菜饼,简单步骤与技巧详解

幻塔游戏中的料理很多,而蕨菜饼就是游戏中的料理之一,蕨菜饼可以让角色恢复一定的生命值,能够帮助玩家解决生命值低的问题,下

幻塔坚果茶的制作方法及其对健康的多重效果分析
幻塔坚果茶的制作方法及其对健康的多重效果分析

幻塔坚果茶是游戏中拥有回复血量作用的料理之一,坚果茶所需要的食材一共有三种,这三种都是比较稀有的食材,下面91小编带来幻

幻塔意志选择攻略:如何搭配意志才能取得最佳效果
幻塔意志选择攻略:如何搭配意志才能取得最佳效果

幻塔意志在游戏中是非常重要的,好的意志搭配可以让玩家提升很大的战力,意志主要的选择是金色和紫色,下面91小编带来幻塔意志

如何获得幻塔旅行者号外壳的详细攻略与获取途径
如何获得幻塔旅行者号外壳的详细攻略与获取途径

幻塔旅行者号外壳是游戏中载具的零件之一,这款载具外形还是非常好看的,很多玩家都想要入手这个旅行者号外壳,下面91小编带来

哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享
哈利波特魔法觉醒中雪球大乱斗的最佳卡组搭配策略分享

哈利波特魔法觉醒雪球大乱斗卡组是比较难搭配的,这个卡组的主要卡牌是飞沙走石,卡牌的强度不低获取也是比较容易的,下面91小

幻塔中芝麻的具体位置如何寻找,以及芝麻获取的详细方式与攻略
幻塔中芝麻的具体位置如何寻找,以及芝麻获取的详细方式与攻略

幻塔游戏中的食材有很多,而芝麻则是游戏中的非常稀有的一个食材,这个食材只能通过活动获得,但有不少的料理都需要用到芝麻,下