UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导

AIGC动态3年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导
关键字：模型,数据,研究人员,对手,自我
文章来源：新智元
内容字数：5347字

内容摘要：

新智元报道编辑：润
【新智元导读】来自UCLA的华人团队提出一种全新的LLM自我对弈系统，能够让LLM自我合成数据，自我微调提升性能，甚至超过了用GPT-4作为专家模型指导的效果。合成数据已经成为了大语言模型进化之路上最重要的一块基石了。
在去年底，有网友扒出前OpenAI首席科学家Ilya曾经在很多场合表示过，LLM的发展不存在数据瓶颈，合成数据可以解决大部分的问题。
英伟达高级科学家Jim Fan在看了最近的一批论文后也认为，使用合成数据，再加上传统用于游戏和图像生成的技术思路，可以让LLM完成大幅度的自我进化。
而正式提出这个方法的论文，是由来自UCLA的华人团队。
论文地址：https://arxiv.org/abs/2401.01335v1
他们通过自我对弈机制（SPIN）生成合成数据，再通过自我微调的方法，不使用新的数据集，让性能较弱的LLM在Open LLM Leaderboard Benchmark上将平均分从58.14提升至63.16。
研究人员提出了一种名为SPIN的自我微调的方法，通过自我对弈的方式——LLM与其前一轮迭代版本进行对抗，从而逐步提升语言模型的性能

原文链接：UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导