87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe
关键字：模型,数据,任务,指令,性能
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：乔杨耳朵
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列，FLAMe-RM-24B模型在RewardBench上表现卓越，以87.8%准确率领先GPT-4o。大语言模型都卷起来了，模型越做越大，token越来越多，输出越来越长。
那么问题来了，如何有效地评估大语言模型的长篇大论呢？要是输出长度长了但胡言乱语输出质量差，又臭又长，岂不是白搭?
首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要，但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。
考虑到这些因素，谷歌DeepMind研究团队提出了自动评估解决方案FLAMe。论文地址：https://arxiv.org/abs/2407.10817
模型本身在经历多规模指令任务调整后，可以遵循一套新的指令，使它们适合用作模型输出的自动评估器。
一方面，为了使LLM自动评分更加合理、准确并与人类偏好保持一致，对人类判断的数据收集极其重要。
然而，获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似可行，但面临着缺乏标准、文档数据不充分、数据隐私和专有权等问

原文链接：87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe