推理能力再创新高!DeepSeek推出颠覆性技术SPCT,助力大模型更深入理解人类需求

备受瞩目的中国人工智能研究实验室DeepSeek AI,继其强大的开源语言模型DeepSeek-R1之后,再次在大型语言模型(LLM)领域取得重大突破。近日,DeepSeek AI正式推出一项名为自主演原则的批判调优(Self-Principled Critique Tuning,简称SPCT)的创新技术,旨在构建更通用、更具扩展性的AI奖励模型(Reward Models,简称RMs)。这项技术有望显著提升AI在开放式任务和复杂环境中的理解和应对能力,为更智能的AI应用铺平道路。

背景:奖励模型——强化学习的“指路明灯”

在开发先进的LLM的过程中,强化学习(Reinforcement Learning,简称RL)已成为一项关键技术。RL通过引入反馈信号来指导模型的微调,使其能够生成更高质量的回复。而在这个过程中,奖励模型扮演着至关重要的角色,如同一个“裁判”,负责评估LLM的输出并给出相应的分数或“奖励”。这些奖励信号能够有效地引导RL过程,促使LLM学习产生更有用的内容。

然而,当前的奖励模型也面临着诸多限制。它们往往在规则明确或答案易于验证的狭窄领域表现出色,例如DeepSeek-R1等模型在数学和编程问题上的优秀表现就得益于在此类问题上明确的“正确答案”。但是,对于复杂、开放或主观性较强的一般领域查询,构建一个有效的奖励模型仍然是一个巨大的挑战。DeepSeek AI的研究人员在其论文中指出:“通用奖励模型需要在特定领域之外生成高质量的奖励,而这些领域的奖励标准更加多样和复杂,并且往往没有明确的参考或标准答案。”

QQ_1744163322242.png

SPCT:应对四大挑战,打造通用奖励模型

为了克服现有奖励模型的局限性,DeepSeek AI的研究人员提出了SPCT这一全新的技术。他们强调了构建通用奖励模型需要应对的四个关键挑战:

  • 输入灵活性(Input flexibility): 奖励模型必须能够处理各种不同的输入类型,并能够同时评估一个或多个回复。
  • 准确性(Accuracy): 在标准复杂且缺乏明确答案的各种领域中,奖励模型必须能够生成准确的奖励信号。
  • 推理时可扩展性(Inference-time scalability): 当分配更多的计算资源进行推理时,奖励模型应该能够产生更高质量的奖励。
  • 学习可扩展的行为(Learning scalable behaviors): 为了使奖励模型在推理时能够有效地扩展,它们需要学习能够随着计算资源的增加而提高性能的行为。

研究人员指出,“基于点的生成式奖励建模”(Pointwise Generative Reward Modeling,GRM),即模型生成文本评论并从中导出分数的方法,能够为通用任务提供所需的灵活性和可扩展性。DeepSeek 团队在 GPT-4o 和 Gemma-2-27B 等模型上进行的初步实验表明,“某些原则可以指导生成式奖励模型在适当的标准内生成奖励,从而提高奖励的质量”,这启发了他们可以通过扩展高质量原则和准确评论的生成来实现奖励模型的推理时可扩展性。

SPCT的核心机制:自主演原则与批判调优

基于以上发现,DeepSeek 团队开发了SPCT技术,该技术训练GRM根据查询和回复动态地生成原则和评论。研究人员认为,原则应该是“奖励生成的一部分,而不是一个预处理步骤”。通过这种方式,GRM可以根据其正在评估的任务即时生成原则,然后基于这些原则生成批判性意见。

QQ_1744163337397.png

SPCT包含两个主要阶段:

  1. 拒绝式微调(Rejective fine-tuning): 此阶段训练GRM使用正确的格式为各种输入类型生成原则和评论。模型为给定的查询/回复生成原则、评论和奖励。只有当预测的奖励与真实情况(例如,正确识别出更好的回复)一致时,生成的轨迹才会被接受,否则将被拒绝。这个过程会重复进行,模型在过滤后的示例上进行微调,以提高其原则/评论生成能力。
  2. 基于规则的强化学习(Rule-based RL): 在此阶段,模型通过基于结果的强化学习进行进一步的微调。GRM为每个查询生成原则和评论,奖励信号基于简单的准确性规则计算(例如,是否选择了已知的最佳回复)。然后更新模型,鼓励GRM学习如何动态且可扩展地生成有效的原则和准确的评论。

为了应对推理时可扩展性的挑战,研究人员对同一输入多次运行GRM,生成不同的原则和评论集。最终的奖励通过投票(聚合样本分数)确定。这使得模型能够考虑更广泛的视角,从而在获得更多资源时产生更准确和细致的最终判断。

此外,为了解决一些生成的原则/评论可能质量不高或存在偏差的问题,研究人员引入了一个“元奖励模型”(meta RM)——一个单独的、轻量级的标量RM,专门用于预测主要GRM生成的原则/评论是否可能导致正确的最终奖励。在推理过程中,元RM评估生成的样本并过滤掉低质量的判断,进一步提高了扩展性能。

DeepSeek-GRM的卓越表现

研究人员将SPCT应用于谷歌的开源模型Gemma-2-27B,创建了DeepSeek-GRM-27B。在多个基准测试中,他们将其与几种强大的基线RM(包括LLM-as-a-Judge、标量RM和半标量RM)以及公开模型(如GPT-4o和Nemotron-4-340B-Reward)进行了评估。结果表明,DeepSeek-GRM-27B优于在相同数据上训练的基线方法

QQ_1744163349080.png

与标准微调相比,SPCT显著提高了奖励的质量,更重要的是,提升了推理时的可扩展性。通过生成更多样本进行推理时扩展,DeepSeek-GRM-27B的性能大幅提升,甚至超过了更大的模型,如Nemotron-4-340B-Reward和GPT-4o。元RM的引入进一步提升了扩展性,通过过滤判断实现了最佳结果。研究人员指出:“通过更大规模的采样,DeepSeek-GRM可以根据更多样化的原则做出更准确的判断,并输出更精细的奖励。”有趣的是,与在可验证任务上表现良好但在其他方面表现较差的标量RM相比,SPCT在不同领域表现出更少的偏差。

更通用和可扩展的奖励模型的开发对于企业级AI应用具有广阔的前景。潜在的受益领域包括创意任务以及模型必须适应动态环境(如不断变化的客户偏好)的应用。

尽管取得了显著的成果,但与非生成式RM相比,DeepSeek-GRM在纯粹可验证的任务上的性能以及效率方面仍然存在挑战。DeepSeek 团队表示,未来的工作将侧重于提高效率和更深入的集成。他们总结道:“未来的方向可能包括将GRM集成到在线RL流程中,作为奖励系统的通用接口,探索与策略模型进行推理时协同扩展,或者作为基础模型的鲁棒离线评估器。”

论文:https://arxiv.org/abs/2504.02495

猜你喜欢

幻塔红莲刃属性分析与技能介绍-了解红莲刃的独特能力与技巧
幻塔红莲刃属性分析与技能介绍-了解红莲刃的独特能力与技巧

在幻塔游戏里有着独特的战斗系统,玩家可以在游戏里面自由选择各种各样不同的武器进行战斗,每个武器都有着属于自己的攻击方式和

龙息神寂古姆技能效果详细解析及其在实战中的应用策略分析
龙息神寂古姆技能效果详细解析及其在实战中的应用策略分析

龙息神寂古姆技能是游戏中一个非常强大的存在。它在游戏中的表现十分出色,无论是单体攻击还是群体攻击都具有很高的效率。此技能

超强祖师手游紫命小唐推塔实用技巧与攻略分享,助你快速通关挑战
超强祖师手游紫命小唐推塔实用技巧与攻略分享,助你快速通关挑战

在最强祖师这款游戏中,紫命小唐因其独特的技能组合和强大的推塔能力而备受玩家青睐。要有效地利用紫命小唐进行推塔,玩家需要掌

91麻豆精品秘密揭秘-景甜如何蜕变为90后时尚代言人,引领新时代潮流风向标的全新旅程
91麻豆精品秘密揭秘-景甜如何蜕变为90后时尚代言人,引领新时代潮流风向标的全新旅程

随着社会媒体和互联网的发展,年轻一代的时尚审美和娱乐消费趋势已经发生了翻天覆地的变化。作为当下最具潜力的影视演员之一,景

三角洲行动S3“走为上计”任务详细攻略及实施步骤全解析
三角洲行动S3“走为上计”任务详细攻略及实施步骤全解析

在三角洲行动s3赛季中,“走为上计”是一项需要玩家具备策略思维和战术执行能力的任务。这项任务要求玩家在特定的地图环境中,

泰裤辣的详细攻略:高效实现每天任务的快速完成方法
泰裤辣的详细攻略:高效实现每天任务的快速完成方法

泰裤辣原文,泰裤辣是近日爆火的梗,但是很多的玩家都不知道梗是的怎么来的,也都非常的好奇泰裤辣原文,小编本期为大家带来了本

如何在计划应用中创建和设置我的个人计划,使我的时间管理更加高效?
如何在计划应用中创建和设置我的个人计划,使我的时间管理更加高效?

高效时间管理神器:如何在“我要做计划”app中添加计划?对于繁忙的现代人来说,合理规划时间和任务至关重要。而“我要做计划

和平精英绿洲世界钓鱼详细攻略-全面解析钓竿获取方式与技巧
和平精英绿洲世界钓鱼详细攻略-全面解析钓竿获取方式与技巧

在和平精英的绿洲世界中,特种兵们不仅可以体验到紧张刺激的枪战对决,还能享受到宁静悠然的钓鱼乐趣,在这片广阔的开放世界地图

91国精华液一二线品牌,开辟全新护肤领域!网友纷纷表示:不亲身体验难以置信,真的超乎想象!
91国精华液一二线品牌,开辟全新护肤领域!网友纷纷表示:不亲身体验难以置信,真的超乎想象!

91国精产品一二二线精华液,近期在美容护肤圈中掀起了一股热潮。不同于传统的护肤精华液,这款产品凭借其精准的配方与高效能的

144447大但人文艺术:打破常规的美学风潮,重塑你对艺术的全新理解与体验!
144447大但人文艺术:打破常规的美学风潮,重塑你对艺术的全新理解与体验!

144447大但人文艺术是当下人们热议的焦点,它不仅仅代表着艺术的演变,更是文化与美学不断交融的奇迹。在144447大但