Meta:大语言模型可以通过自我批判取得大幅提升!

Meta:大语言模型可以通过自我批判取得大幅提升!

AIGC动态欢迎阅读

原标题:Meta:大语言模型可以通过自我批判取得大幅提升!
关键字:模型,执行者,数据,长度,提示
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | 谢年年论文的审稿模式想必大家都不会陌生,一篇论文除了分配多个评审,最后还将由PC综合评估各位审稿人的reviews撰写meta-review。
最近,来自Meta的研究团队将这一模式引进到大模型的对齐训练中。模型同时扮演 执行者(actor)、评判者(judge)和元评判者(meta-judge) 三种角色。执行者生成回复,评判者评估生成回复的质量并打分,元评判者则检查评判者的质量,为评判者提供必要的训练反馈。
通过这种方式获得大量回复偏好对,无需人工标注数据,进一步训练对齐模型,显著提高了模型的判断和遵循指令的能力。
论文标题:META-REWARDING LANGUAGE MODELS:
Self-Improving Alignment with LLM-as-a-Meta-Judge
论文链接:https://arxiv.org/pdf/2407.19594
方法本文假设没有任何额外的人工监督数据,仅有一个初始的种子LLM。通过迭代自我对弈,模型同时扮演执行者(actor)、评判者(judge)和元评判者(meta-judge)三种角色。执行者生成回复


原文链接:Meta:大语言模型可以通过自我批判取得大幅提升!

联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...