大模型自我奖励：Meta让Llama2自己给自己微调，性能超越了GPT-4

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：大模型自我奖励：Meta让Llama2自己给自己微调，性能超越了GPT-4
关键字：模型,指令,自我,能力,数据
文章来源：机器之心
内容字数：5180字

内容摘要：

机器之心报道
编辑：泽南、蛋酱人工智能的反馈（AIF）要代替 RLHF 了？大模型领域中，微调是改进模型性能的重要一步。随着开源大模型逐渐变多，人们总结出了很多种微调方式，其中一些取得了很好的效果。
最近，来自 Meta、纽约大学的研究者用「自我奖励方法」，让大模型自己生成自己的微调数据，给人带来了一点新的震撼。
在新方法中，作者对 Llama 2 70B 进行了三个迭代的微调，生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型，包括 Claude 2、Gemini Pro 和 GPT-4。因此，论文刚刚发上 arXiv 几个小时就引起了人们的注意。
虽然目前方法还没有开源，但是人们认为论文中使用的方法描述清晰，复现起来应该不难。
众所周知，使用人类偏好数据调整大语言模型（LLM）可以极大提高预训练模型的指令跟踪性能。在 GPT 系列中，OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法，让大模型可以从人类偏好中学习奖励模型，再使得奖励模型被冻结并用于使用强化学习训练 LLM，这种方法已获得了巨大的成功。
最近出现的新思路是完全避免训练奖励模型，并直

原文链接：大模型自我奖励：Meta让Llama2自己给自己微调，性能超越了GPT-4