谷歌 DeepMind 利用强化学习技术提升 AI 的决策能力与表现效果

近期,谷歌 DeepMind 团队与约翰・开普勒林茨大学 LIT AI 实验室合作,开展了一项关于人工智能语言模型的新研究。他们采用了强化学习微调(RLFT)技术,旨在提升语言模型的决策能力。这项研究的重点在于,通过思维链的强化训练,解决了模型在决策过程中存在的一些关键问题。

Gemini,Google DeepMind,人工智能,AI

随着大数据的应用,现有的语言模型已经展现出处理文本的超越能力,甚至能够在交互环境中做出基于知识的决策。然而,这些模型在实际决策时却常常出现 “纸上谈兵” 的问题,虽然能推导出正确的策略,却无法有效地执行。此外,它们还倾向于选择短期内能够获得更高回报的选项,同时较小的模型常常因为频率偏见而重复常见的动作。

传统的强化学习方法,比如 UCB 算法,虽然可以在一定程度上平衡探索与利用,但仍然无法完全解决模型推理与行动之间的脱节问题。为此,DeepMind 团队创新性地引入了强化学习微调技术,利用模型自生成的思维链作为训练信号。系统将评估每个推理步骤所对应的行动奖励,促使模型优先选择逻辑自洽且有效的行动方案。

在实际实施过程中,模型根据输入指令及历史行动与奖励生成包含推理过程和动作的序列。通过蒙特卡洛基线评估和广义优势估计进行优化,若采取无效动作,则会触发惩罚机制。同时,奖励塑造技术的引入不仅保证了输出的规范性,还保留了探索的空间。

在实验中,研究团队测试了多臂老虎机模型。在10臂的测试中,2B 参数模型的动作覆盖率提升了12个百分点。在20臂的测试中,虽然改善幅度较小,但频次偏见率从70% 降至35%,显示出研究的有效性。井字棋的实验结果显示,模型与随机对手对战的胜率提升了5倍,对阵最优蒙特卡洛树搜索代理时的平均回报从 -0.95归零。此外,27B 大模型生成正确推理的概率达到了87%,而未微调时仅有21% 能够执行最优动作。这一系列的数据充分证明了强化学习微调在缩小推理与行动之间差距方面的有效性。

划重点:

📊 研究采用强化学习微调(RLFT)技术提升 AI 语言模型的决策能力。  

🧩 通过自生成思维链进行训练,模型的逻辑推理和行动选择得到有效提升。  

🏆 实验显示,模型在多臂老虎机及井字棋中均显著改善了表现,缩小了推理与执行之间的差距。  

猜你喜欢

如何进入想不想修真秘境地图?详细攻略及进入方法分享
如何进入想不想修真秘境地图?详细攻略及进入方法分享

想不想修真秘境地图怎么走?这个问题想必是很多玩家都想知道的答案,今天91小编给大家带来了秘境地图进入方法介绍,希望能够帮

荒野大镖客:救赎线上模式中佩戴蒙面巾的技巧与实战应用分析
荒野大镖客:救赎线上模式中佩戴蒙面巾的技巧与实战应用分析

荒野大镖客:救赎线上模式蒙面巾佩戴及实战应用

完美世界精灵八技能的获取途径与操作手法详细介绍
完美世界精灵八技能的获取途径与操作手法详细介绍

完美世界手游精灵八技能是大家比较关心的,很多小伙伴们好奇的就是这个该怎么获得,不知道获得方法的小伙伴们,就让小编给大家详

怪物猎人:荒野中从头开始打造个性小丑女捏脸全攻略与流程
怪物猎人:荒野中从头开始打造个性小丑女捏脸全攻略与流程

怪物猎人:荒野从零打造小丑女捏脸全流程

王者荣耀BUG修复后击败特效表现如何?全面解析BUG修复击败特效玩法攻略
王者荣耀BUG修复后击败特效表现如何?全面解析BUG修复击败特效玩法攻略

相信在王者荣耀游戏中很多小伙伴不知道BUG修复击败特效吧,那么BUG修复击败特效怎么玩呢?接下来与91单机小编一起来看看

英雄连:勇气传说联机对战全方位攻略——游侠平台深度剖析与玩法解析
英雄连:勇气传说联机对战全方位攻略——游侠平台深度剖析与玩法解析

英雄连:勇气传说联机对战终极指南——游侠平台全解析

王者荣耀云中君伴生的荷鲁斯之眼皮肤使用体验分享与解析,究竟效果如何?
王者荣耀云中君伴生的荷鲁斯之眼皮肤使用体验分享与解析,究竟效果如何?

大家都知道在王者荣耀中云中君伴生荷鲁斯之眼皮肤已经曝光了,相信很多玩家都很期待吧,那么在游戏中云中君伴生荷鲁斯之眼皮肤怎

航海日记黑海区域有哪些赚钱技巧?快速获取财富的方法有哪些?
航海日记黑海区域有哪些赚钱技巧?快速获取财富的方法有哪些?

航海日记黑海是游戏中的重要海域,要怎么赚钱呢,91单机小编给大家带来航海日记黑海赚钱方法攻略,一起来看看吧!航海日记黑海

剑与轮回手机游戏中枪手转职选择解析与不同转职职业之间的差异对比
剑与轮回手机游戏中枪手转职选择解析与不同转职职业之间的差异对比

剑与轮回手游枪手是很多玩家选择的职业,要如何选择转职呢,91单机小编给大家带来剑与轮回手游枪手转职攻略,感兴趣的玩家们就