AIGC动态欢迎阅读
原标题:87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
关键字:模型,数据,任务,指令,性能
文章来源:新智元
内容字数:0字
内容摘要:
新智元报道编辑:乔杨 耳朵
【新智元导读】谷歌DeepMind推出LLM自动评估模型FLAMe系列,FLAMe-RM-24B模型在RewardBench上表现卓越,以87.8%准确率领先GPT-4o。大语言模型都卷起来了,模型越做越大,token越来越多,输出越来越长。
那么问题来了,如何有效地评估大语言模型的长篇大论呢?要是输出长度长了但胡言乱语输出质量差,又臭又长,岂不是白搭?
首先能想到的方法就是人工评估。人工评估虽然对于评价模型性能至关重要,但受到主观性、评估者之间的差异性以及广泛评估的高成本的限制。
考虑到这些因素,谷歌DeepMind研究团队提出了自动评估解决方案FLAMe。论文地址:https://arxiv.org/abs/2407.10817
模型本身在经历多轮大规模指令任务调整后,可以遵循一套新的指令,使它们适合用作模型输出的自动评估器。
一方面,为了使LLM自动评分更加合理、准确并与人类偏好保持一致,对人类判断的数据收集极其重要。
然而,获得这些判断数据既昂贵又耗时。从以前的研究中收集现有的人类评估貌似可行,但面临着缺乏标准、文档数据不充分、数据隐私和专有权等问
原文链接:87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe
联系作者
文章来源:新智元
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...