重磅消息！科学团队发现大语言模型内在的“奖励机制”新奥秘-梦之都

近日，南京大学的周志华教授团队发布了一项重要研究，首次理论证明了在大语言模型中可以发现内源性奖励模型，并有效应用强化学习（RL）来提升模型表现。

当前，许多对齐方法依赖于人类反馈强化学习（RLHF），这种方法需要大量高质量的人类偏好数据来训练奖励模型。然而，构建这样一个数据集不仅耗时费力，还面临成本高昂的挑战。因此，研究者们开始探索替代方案，其中基于 AI 反馈的强化学习(RLAIF)受到关注。这种方法利用强大的大语言模型自身生成奖励信号，以降低对人类标注的依赖。

大模型元宇宙 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

研究团队的发现令人振奋:在标准的下一个 Token 预测训练中，强大的通用奖励模型其实是潜藏于每一个大语言模型中的。团队提出的 “内源性奖励” 概念，意味着我们可以从这些模型中提取出一种有效的奖励机制，而无需依赖外部的评估来源。这一理论不仅为奖励模型的构建提供了新思路，还展示了如何有效地利用模型自身的内源性奖励进行微调，进而显著提升模型的表现。

研究结果表明，使用内源性奖励进行的微调能够在误差范围内超越传统基线模型，尤其在复杂任务中表现更为突出。团队进行了广泛的实验验证，结果显示这一新方法优于现有的奖励模型，并且在各类测试中表现出色。

此研究的发布，无疑为未来的大语言模型开发和应用打开了新的大门。研究人员希望，这种利用内部奖励机制的策略，能够降低开发成本，提高效率，并推动人工智能的更广泛应用。