DeepSeek与清华大学共同探索:革命性激励模型推理技术,推动系统可扩展性提升

近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R2似乎更近一步。目前,强化学习在大语言模型的大规模后训练阶段广泛应用,但面临为大语言模型获取准确奖励信号的挑战。

image.png

研究者发现,采用点式生成式奖励建模(GRM)能提升模型适应能力和推理阶段可扩展性。为此,他们提出自我原则点评调优(SPCT)学习方法,经此训练得到 DeepSeek - GRM 模型,如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示,SPCT 显著提高了 GRM 的质量和可扩展性,在多个基准测试中表现优于现有方法和模型。此外,研究者还引入元奖励模型(meta RM)引导投票过程,提升扩展性能。

image.png

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM,还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。

为提升 DeepSeek - GRM 性能,研究团队探索推理时扩展策略。通过生成奖励进行投票,扩大奖励空间,提升最终奖励质量。同时,训练元奖励模型引导投票,过滤低质量样本。实验结果表明,DeepSeek - GRM -27B 整体性能出色,通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要,原则生成对模型性能也至关重要。此外,研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性,优于单纯扩大模型规模。

划重点:

💡DeepSeek 和清华研究者提出自我原则点评调优(SPCT)方法及引入元奖励模型(meta RM),提升奖励模型推理时可扩展性,构建出 DeepSeek - GRM 系列模型。

🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段,提高了 GRM 质量和扩展性,使 DeepSeek - GRM -27B 在基准测试中表现优异。

📈研究团队探索推理时扩展策略,通过生成奖励投票和元奖励模型引导投票提升性能,证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。

论文地址:

https://arxiv.org/abs/2504.02495

猜你喜欢

“闪耀希望”公益画展:在北京首度展出,为孤独症儿童点燃希望之光!
“闪耀希望”公益画展:在北京首度展出,为孤独症儿童点燃希望之光!

在北京市东城区天坛街道的天坛东路甲7号,燕京书画社迎来了一场意义非凡的公益画展——“遇见光”。此次画展作为点亮行动公益计

无双剑姬最佳天赋解析-如何选择天赋助力英雄在对战中获得胜利
无双剑姬最佳天赋解析-如何选择天赋助力英雄在对战中获得胜利

无双剑姬带什么天赋:天赋的选择对战斗至关重要在英雄联盟中,无双剑姬是一位极具爆发力的近战英雄,能够快速击败敌人并生存下来

山西昔阳元宵佳节:绚丽焰火秀照亮夜空,共同欢庆团圆吉祥福满人间
山西昔阳元宵佳节:绚丽焰火秀照亮夜空,共同欢庆团圆吉祥福满人间

在元宵佳节的温馨氛围中,山西晋中市昔阳县迎来了一场别开生面的庆典——“焰舞昔阳 福满元宵”音乐焰火晚会,为2025年的传

潮流涌动-在科技的浪潮中,谁能洞察未来的走向与变革
潮流涌动-在科技的浪潮中,谁能洞察未来的走向与变革

“哼,瞧这科技潮涌,谁在下面看流水?”我斜眼一瞥,口中不自觉地嘟囔。今日这网络世界,风起云涌,潮流变换,可谓一日千里。而

墨香四溢,汤林波在墨缘堂全国艺术大赛中斩获书法一等奖,彰显独特诗意魅力!
墨香四溢,汤林波在墨缘堂全国艺术大赛中斩获书法一等奖,彰显独特诗意魅力!

在商业与艺术的交汇点上,一位才华横溢的重庆人——汤林波,以其独特的魅力吸引了众人的目光。现年58岁的他,不仅是一位成功的

书法艺术杰出人才李学武:在墨韵飞扬之中,盛获墨缘堂艺术大赛书法一等奖的辉煌成就!
书法艺术杰出人才李学武:在墨韵飞扬之中,盛获墨缘堂艺术大赛书法一等奖的辉煌成就!

在河南洛阳市伊川县半坡镇侯沟村,孕育了一位杰出的书法艺术家——李学武,笔名醉墨。他的艺术生涯,如同他生长的这片中原大地一

揭示刘洪武的书画艺术魅力:每一笔每一划皆展现出独特的气韵与精神风貌
揭示刘洪武的书画艺术魅力:每一笔每一划皆展现出独特的气韵与精神风貌

在当代书法艺术领域,一位名叫刘洪武的艺术家以其深厚的功底和独特的风格脱颖而出,成为备受瞩目的焦点。 刘洪武,195

购买Y31成色优良的S31正品手机攻略-确保获得高品质与全面保障
购买Y31成色优良的S31正品手机攻略-确保获得高品质与全面保障

在如今的市场中,越来越多的人在选择手机时会关注手机的外观成色与正品保障。尤其是像“Y31成色好的S31正品”这样的话题,

探寻书法艺术的深层内涵:在变化与统一的交融中发现永恒的创作主题
探寻书法艺术的深层内涵:在变化与统一的交融中发现永恒的创作主题

河南省书法名家孙战生谈书法艺术中的变化与统一孙战生,字宝风,别署师竹斋、翰耕堂主,籍贯河南省宝丰县,现任宝丰县三级调研员

坎公骑冠剑57乐谱敲锣任务详解及通关策略分享
坎公骑冠剑57乐谱敲锣任务详解及通关策略分享

坎公骑冠剑游戏当中每个章节当中都有对应的关卡任务挑战,5-7当中需要玩家达成敲锣的任务,那么具体怎么做才能顺利通关呢?相