过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%

AIGC动态欢迎阅读

原标题：过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%
关键字：策略,政策,过程,优势,步骤
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】通过过程奖励模型（PRM）在每一步提供反馈，并使用过程优势验证器（PAV）来预测进展，从而优化基础策略，该方法在测试时搜索和在线强化学习中显示出比传统方法更高的准确性和计算效率，显著提升了解决复杂问题的能力。在提升大型语言模型（LLM）在数学推理方面的能力时，一个常用的方法是训练一个奖励模型（reward model）或验证器（verifier），也可以利用强化学习在测试阶段（test-time）对所有解决方案进行重排序。
通常情况下，验证器的预测是整个推理过程的结果，即结果奖励模型（ORM，outcome reward models），但这种奖励信号过于稀疏，模型难以从中学习，并且搜索过程的效率也不高；理论上，通过细粒度的监督数据可以缓解这一问题。
在推理方面，先前有研究已经训练了过程奖励模型（PRMs，process reward models），在搜索的每一步或在强化学习期间分配中间奖励，不过PRM数据都来源于人工标注，不具备可扩展性。
虽然也有研究者训练PRMs来预测自动生成的标注，类似于强化学习中的价值函数，但到目前为止，自动化的PRM

原文链接：过程奖励模型PRM成版本答案！谷歌DeepMind全自动标注逐步骤奖励PAV，准确率提升8%