Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

AIGC动态8个月前发布 新智元
17 0 0

Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

AIGC动态欢迎阅读

原标题:Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局
关键字:模型,研究人员,数据,指令,自我
文章来源:新智元
内容字数:6556字

内容摘要:


新智元报道编辑:桃子 润
【新智元导读】AI训AI必将成为一大趋势。Meta和NYU团队提出让大模型「自我奖励」的方法,让Llama2一举击败GPT-4 0613、Claude 2、Gemini Pro领先模型。Llama 2-70B一夜之间打败GPT-4,让整个AI社区为之震惊!
甚至,在AlpacaEval 2.0排行榜中,微调后的模型胜率完全碾压Claude 2、Gemini Pro等模型。
Meta和NYU研究团队究竟提出了什么秘制配方,才能让Llama 2-70B超强进化?
正如论文题目所言——「自我奖励语言模型」,模型生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己。
简单来说,最新方法可以让LLM在迭代训练过程中不断自我改进。
论文地址:https://arxiv.org/pdf/2401.10020.pdf
LeCun也转赞了自家实验室的研究。
RLAIF已经不是新鲜事了,之前包括Anthropic,谷歌都推出过自己的「AI训AI」的技术,那么Meta的这项工作和之前的几家的RLAIF区别在哪里呢?
我们先来了解一下Meta的自我奖励语言模型的大概框架


原文链接:Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...