Meta浙大校友让评估模型「自学成才」，数据全合成无需人工标注，训练Llama 3 70B超过405B

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：Meta浙大校友让评估模型「自学成才」，数据全合成无需人工标注，训练Llama 3 70B超过405B
关键字：模型,数据,指令,人类,分数
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨
【新智元导读】随着LLM不断迭代，偏好和评估数据中大量的人工标注逐渐成为模型扩展的显著障碍之一。Meta FAIR的团队最近提出了一种使用迭代式方法「自学成才」的评估模型训练方法，让70B参数的Llama-3-Instruct模型分数超过了Llama 3.1-405B。LLM在开发周期的每个阶段都依赖强大的评估模型，比如训练阶段用于对齐人类偏好或迭代自我改进的奖励模型，以及推理阶段作为人类评估的替代方案。
构建评估模型往往依赖大量的高质量人类偏好数据，不仅耗时长、成本高，而且在模型扩展到新任务或评估标准时造成了阻碍。
此外，随着新模型不断迭代改进时，现有的标注数据往往会过时，因为其中的评估是基于旧有的、性能较差的模型相应。这意味着需要不断重复上述的数据标注和收集流程。
最近，Meta FAIR发表的一篇研究就尝试使用合成数据的方法来解决这个问题。他们提出了一种迭代的自我训练方法，在训练循环中完全不使用人类标注的偏好数据，而是纯粹依赖合成数据。
论文地址：https://arxiv.org/abs/2408.02666
实验中，这种方法将Llama-3-70B-I

原文链接：Meta浙大校友让评估模型「自学成才」，数据全合成无需人工标注，训练Llama 3 70B超过405B