Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情
关键字：策略,智能,基础,行为,模型
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】在强化学习中，当智能体的奖励机制与设计者的意图不一致时，可能会导致不理想的行为，而KL正则化作为一种常用的解决方案，通过限制智能体的行为来防止这种情况，但智能体在某些情况下仍可能表现出意料之外的行为；为了提高智能体的可靠性，研究人员提出了新的理论方案，通过改变指导原则来增强智能体在未知情况下的谨慎性。在强化学习中，智能体的奖励机制有时会与设计者的真实目的存在差异，比如一个机器人，开发者希望它能够通过学习来更好地完成任务，然后设计了一个奖励系统，当模型做出预期中认为有用的事情时，就会得到奖励；但有时候，智能体可能会做出非预期的行为，其奖励系统可能并不完全符合真实意图。
为了防止这种情况，业界通常会使用一种叫做KL正则化的技术，类似于给智能体一个行为准则「不要做我不会做的事情。」，目前主流的语言模型，比如能够生成流畅文本的智能体，都是使用这种技术进行训练的。
但这里有一个潜在的问题，如果智能体是基于一个预测模型来模仿人类的行为，那么KL正则化可能就不够用了：即使智能体的行为在大多数情况下看起来都很好，但在某些情况下，也可能会做出一些出乎意料的行

原文链接：Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情