大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4

AIGC动态10个月前发布 机器之心
47 0 0

大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4

AIGC动态欢迎阅读

原标题:大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4
关键字:模型,指令,自我,能力,数据
文章来源:机器之心
内容字数:5180字

内容摘要:


机器之心报道
编辑:泽南、蛋酱人工智能的反馈(AIF)要代替 RLHF 了?大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了很多种微调方式,其中一些取得了很好的效果。
最近,来自 Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,给人带来了一点新的震撼。
在新方法中,作者对 Llama 2 70B 进行了三个迭代的微调,生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型,包括 Claude 2、Gemini Pro 和 GPT-4。因此,论文刚刚发上 arXiv 几个小时就引起了人们的注意。
虽然目前方法还没有开源,但是人们认为论文中使用的方法描述清晰,复现起来应该不难。
众所周知,使用人类偏好数据调整大语言模型(LLM)可以极大提高预训练模型的指令跟踪性能。在 GPT 系列中,OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法,让大模型可以从人类偏好中学习奖励模型,再使得奖励模型被冻结并用于使用强化学习训练 LLM,这种方法已获得了巨大的成功。
最近出现的新思路是完全避免训练奖励模型,并直


原文链接:大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...