强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作
关键字：模型,自我,初始化,阶段,公式
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
机器之心编辑部无需依赖外部反馈或额外模型，纯纯的自我纠正。自我纠正（Self-correction）是大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型，要么依赖于更强大的模型或其他形式的监督。
我们如何才能让 LLM 具备自我纠正能力？之前的研究要么依赖于提示工程，要么依赖于专门用于自我纠正的微调模型。但前者通常无法有效地进行有意义的内在自我纠正，而后者基于微调的方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。
在最近提交的一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误，尽管没有收到任何 oracle 反馈。更重要的是，SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力，而无需任何 ora

原文链接：强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作