AIGC动态欢迎阅读
原标题:4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
关键字:模型,长度,数据,人类,评价
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:编辑部
【新智元导读】Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DPO等对齐阶段。
后者不仅依赖昂贵的人工标注数据,而且很可能让人类水平限制LLM的进一步发展。
今年1月,Meta和NYU的团队就提出了语言模型的自我奖励机制,使用LLM-as-a-Judge的提示机制,让模型在训练期间进行自我反馈。
论文地址:https://arxiv.org/abs/2401.10020
论文发现,即使不依靠人类标注者,LLM也能通过评价自己的响应实现性能提升。
最近,这个团队又发表了一篇研究,将LLM「自我奖励」这件事情再拔高了一个层次。
论文地址:https://arxiv.org/abs/2407.19594
毕竟是自己给自己打分,因此不能只关注模型作为actor如何从反馈中优化,也需要保证模型作为judge具备优秀的自我评价能力。
之前的研究就因为过于关注前者而忽略后者,造成了迭代训练期间性能的过快饱和。
甚至,还有可能造
原文链接:4轮暴训,Llama 7B击败GPT-4!Meta等让LLM「分饰三角」自评自进化
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...