像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

AIGC动态欢迎阅读

原标题:像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍
关键字:模型,反馈,语言,研究者,腾讯
文章来源:机器之心
内容字数:8819字

内容摘要:


机器之心专栏
机器之心编辑部除了分数,打出分数背后的理由对于大模型对齐更具价值。现有的大模型对齐方法包括基于示例的监督微调(SFT)和基于分数反馈的强化学习(RLHF)。然而,分数只能反应当前回复的好坏程度,并不能明确指出模型的不足之处。相较之下,我们人类通常是从语言反馈中学习并调整自己的行为模式。就像审稿意见不仅仅是一个分数,还包括许多接受或者拒绝的理由。
那么,大语言模型能否也像人类一样利用语言反馈来改善自身呢?
最近,香港中文大学和腾讯 AI Lab 的研究者们提出了一项名为对比式非似然训练(Contrastive Unlikelihood Learning,CUT)的创新研究,利用语言反馈来对齐语言模型,让模型像人类一样从不同的批评意见中学习成长。
CUT 简单有效。仅凭 1317 条语言反馈数据,CUT 就能使 LLaMA2-13b 在 AlpacaEval 上的 win rate 从 1.87% 飙升至 62.56%,击败 175B 的 DaVinci003。更令人兴奋的是,CUT 能像其他 RLHF 框架一样形成探索 -> 批评 -> 改进的反复迭代,其中批评可由自动的评


原文链接:像人类一样在批评中学习成长,1317条评语让LLaMA2胜率飙升30倍

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...