UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

AIGC动态8个月前发布 新智元
9 0 0

UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

AIGC动态欢迎阅读

原标题:UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导
关键字:模型,数据,研究人员,对手,自我
文章来源:新智元
内容字数:5347字

内容摘要:


新智元报道编辑:润
【新智元导读】来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专家模型指导的效果。合成数据已经成为了大语言模型进化之路上最重要的一块基石了。
在去年底,有网友扒出前OpenAI首席科学家Ilya曾经在很多场合表示过,LLM的发展不存在数据瓶颈,合成数据可以解决大部分的问题。
英伟达高级科学家Jim Fan在看了最近的一批论文后也认为,使用合成数据,再加上传统用于游戏和图像生成的技术思路,可以让LLM完成大幅度的自我进化。
而正式提出这个方法的论文,是由来自UCLA的华人团队。
论文地址:https://arxiv.org/abs/2401.01335v1
他们通过自我对弈机制(SPIN)生成合成数据,再通过自我微调的方法,不使用新的数据集,让性能较弱的LLM在Open LLM Leaderboard Benchmark上将平均分从58.14提升至63.16。
研究人员提出了一种名为SPIN的自我微调的方法,通过自我对弈的方式——LLM与其前一轮迭代版本进行对抗,从而逐步提升语言模型的性能


原文链接:UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...