深度解析 LLM 强化学习的兼容性:上海交大揭示 Llama 和 Qwen 的差异性,并发布全新研究工具 OctoThinker

大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?

强化学习在 Llama 模型上的扩展限制

OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小型模型强化学习能力的探索。然而,这些进展大多局限于 Qwen 模型系列,难以在 Llama 等模型上复现。预训练流程缺乏透明度,使得理解预训练如何影响强化学习的扩展变得困难。一些非传统研究发现,一次性提示可以提高 Qwen 的推理能力,但对 Llama 却收效甚微。尽管 OpenWebMath、MathPile 等项目致力于整理高质量的数学预训练语料库,但其规模仍受限于千亿个 token 以下。

QQ20250703-110233.png

探索训练中期的稳定衰减策略

上海交通大学的研究人员以 Qwen 和 Llama 为研究对象,深入探究了中期训练策略对强化学习动态的影响,并得出了以下见解:

首先,像 MegaMath-Web-Pro 这样的高质量数学语料库能同时提升基础模型和强化学习的效果。其次,使用问答式数据,特别是包含长 CoT(Chain-of-Thought)推理的数据,可以进一步增强强化学习效果。第三,长 CoT 会在强化学习训练中引入冗长性和不稳定性。最后,在中期训练中应用扩展可以提升下游强化学习的性能。

研究人员提出了一种名为“稳定-衰减”的两阶段中期训练策略:首先使用2000亿个 token 训练基础模型,然后在三个以 CoT 为中心的分支上使用200亿个 token 进行训练。最终,这一策略成功生成了具有强大强化学习兼容性的 OctoThinker 模型。

RL 配置和基准评估

研究人员使用 MATH8K 数据集进行强化学习 (RL) 训练提示,配置包括全局训练批次大小128、每个查询16个 rollout 响应以及 PPO 最小批次大小64。实验在 Llama-3.2-3B-Base 和 Qwen2.5-3B-Base 模型上进行。在评估中,基础语言模型采用少样本提示,而强化学习调优模型在 GSM8K、MATH500、OlympiadBench 和 AMC23 等指标任务上采用零样本提示。

在强化学习训练期间,Qwen 模型的响应长度持续增加并保持在合理范围内,而 Llama 模型则表现出异常行为,平均响应长度飙升至4,096个 token。评估结果进一步表明,强化学习调优后的 Qwen2.5-3B 在各个基准测试中均有所提升,而 Llama-3.2-3B 的提升则微乎其微。

OctoThinker 在 RL 兼容性方面优于 Llama

在13个数学基准测试中,每个 OctoThinker 分支都比原始 Llama 基础模型提升了10%-20%,并且在所有规模的稳定阶段模型上都取得了持续的提升。OctoThinker-Zero 系列在强化学习扩展过程中展现出多样化的思维行为,其中 OctoThinker-Long 变体表现出色。在强化学习训练过程中比较三个3B 规模基础模型时,OctoThinker-Long-3B 的表现优于原始 Llama-3.2-3B 模型,并与以强大的推理能力和广泛预训练而闻名的 Qwen2.5-3B 模型达到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑战性的基准测试中。

结论和未来工作:迈向 RL-Ready 基础模型

该研究深入探讨了 Llama 和 Qwen 等基础模型在强化学习推理过程中行为差异的原因,并强调了中期训练对强化学习可扩展性的重要性。两阶段中期训练策略成功将 Llama 转化为更适合强化学习的基础模型,最终诞生了 OctoThinker 模型。

未来的研究方向包括:策划更高质量的数学语料库以改善中期训练;使用开放配方创建 RL 友好的基础模型,无需从长 CoT 推理模型中进行提炼;分离 QA 格式和内容以分别了解它们的贡献;并通过新的分支(例如工具集成推理)扩展 OctoThinker 家族。

猜你喜欢

妄想山海中玄马的优缺点分析及使用体验分享,探讨其在游戏中的实际表现
妄想山海中玄马的优缺点分析及使用体验分享,探讨其在游戏中的实际表现

妄想山海玄马怎么样?妄想山海玄马优缺点是什么?来看看91小编给大家整理的妄想山海玄马优缺点详解吧!玄马玄马是新手初期都带

魔渊之刃开服时间安排及日常任务优先级详解
魔渊之刃开服时间安排及日常任务优先级详解

魔渊之刃开服时间规划与每日必做任务优先级解析

天涯明月刀手游悬眼任务奖励详细汇总与解析,助你轻松获取丰厚奖励
天涯明月刀手游悬眼任务奖励详细汇总与解析,助你轻松获取丰厚奖励

天涯明月刀手游悬眼身份怎么玩?天涯明月刀手游悬眼奖励有哪些?来看看91小编给大家整理的天涯明月刀手游悬眼奖励汇总一览吧!

不思议迷宫中如何巧妙运用扭曲时空的游戏技巧与玩法攻略
不思议迷宫中如何巧妙运用扭曲时空的游戏技巧与玩法攻略

不思议迷宫扭曲时空规则是什么?不思议迷宫扭曲时空规则有哪些?来看看91小编给大家整理的不思议迷宫扭曲时空规则详解吧!扭曲

探索属性与生活3的摆摊与直播赚钱新攻略,轻松实现收入增长的秘诀
探索属性与生活3的摆摊与直播赚钱新攻略,轻松实现收入增长的秘诀

属性与生活3摆摊和直播怎么赚钱?需要注意什么?来看看91小编带来的属性与生活3摆摊加直播日入1w攻略。准备:双音8000

江南百景图抽卡阵容搭配指南及资源合理规划策略
江南百景图抽卡阵容搭配指南及资源合理规划策略

江南百景图预抽卡阵容搭配与资源规划

原神如何快速有效地收集神瞳的技巧与推荐路线
原神如何快速有效地收集神瞳的技巧与推荐路线

原神神瞳在哪收集?神瞳收集方法是什么?下面来看看91小编带来的原神神瞳快速收集攻略。收集神瞳蒙德地区为风神瞳,璃月地区为

心灵杀手2:详解亮瀑镇午餐盒02的具体位置坐标信息
心灵杀手2:详解亮瀑镇午餐盒02的具体位置坐标信息

心灵杀手2亮瀑镇午餐盒02具体坐标解析

天涯明月刀手游瀚海花奇遇任务详细攻略与玩法解析
天涯明月刀手游瀚海花奇遇任务详细攻略与玩法解析

天涯明月刀手游瀚海花奇遇任务怎么完成?解锁条件是什么?来看看91小编带来的天涯明月刀手游瀚海花奇遇攻略。任务接取首先大家