完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

AIGC动态3个月前发布 新智元
9 0 0

完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

AIGC动态欢迎阅读

原标题:完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%
关键字:模型,报告,自我,基础,研究人员
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRS
【新智元导读】Google DeepMind的SCoRe方法通过在线多轮强化学习,显著提升了大型语言模型在没有外部输入的情况下的自我修正能力。该方法在MATH和HumanEval基准测试中,分别将自我修正性能提高了15.6%和9.1%。OpenAI最新发布的o1模型再次证明了自我纠正、显式思考过程在大模型推理中的重要性,思维链可以帮助大模型分解复杂问题,利用计算和交互来改进模型在测试时的性能。
不过,最近有多项研究结果表明,大模型在缺乏外部输入的情况下,基本上无法实现自我纠正,而现有的自我纠正训练方法要么需要多个模型,要么依赖更强大的模型或其他形式的监督信号。
Google DeepMind的研究人员发布了一种多轮在线强化学习(RL)方法 SCoRe,在完全使用自生成数据(entirely self-generated data)的情况下,显着提高了LLM的自我纠正能力。论文链接:https://arxiv.org/pdf/2409.12917
研究人员首先验证了有监督微调 (SFT) 及其变体得到的离线模型,生成的纠正轨迹(correction traces


原文链接:完全使用「自生成数据」实现LLM自我纠正,DeepMind新突破SCoRe:纠正性能提升15.9%

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...