Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

AIGC动态2个月前发布 新智元
9 0 0

Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

AIGC动态欢迎阅读

原标题:Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情
关键字:策略,智能,基础,行为,模型
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRS
【新智元导读】在强化学习中,当智能体的奖励机制与设计者的意图不一致时,可能会导致不理想的行为,而KL正则化作为一种常用的解决方案,通过限制智能体的行为来防止这种情况,但智能体在某些情况下仍可能表现出意料之外的行为;为了提高智能体的可靠性,研究人员提出了新的理论方案,通过改变指导原则来增强智能体在未知情况下的谨慎性。在强化学习中,智能体的奖励机制有时会与设计者的真实目的存在差异, 比如一个机器人,开发者希望它能够通过学习来更好地完成任务,然后设计了一个奖励系统,当模型做出预期中认为有用的事情时,就会得到奖励;但有时候,智能体可能会做出非预期的行为,其奖励系统可能并不完全符合真实意图。
为了防止这种情况,业界通常会使用一种叫做KL正则化的技术,类似于给智能体一个行为准则「不要做我不会做的事情。」,目前主流的语言模型,比如能够生成流畅文本的智能体,都是使用这种技术进行训练的。
但这里有一个潜在的问题,如果智能体是基于一个预测模型来模仿人类的行为,那么KL正则化可能就不够用了:即使智能体的行为在大多数情况下看起来都很好,但在某些情况下,也可能会做出一些出乎意料的行


原文链接:Bengio团队新论文!KL正则化有漏洞,强化学习新策略:不要做我可能不会做的事情

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...