「大型语言模型评测」综述

AIGC动态2年前 (2024)发布人工智能学家

「大型语言模型评测」综述

AIGC动态欢迎阅读

原标题：「大型语言模型评测」综述
关键字：模型,语言,任务,能力,报告
文章来源：人工智能学家
内容字数：10906字

内容摘要：

来源：专知
大语言模型(LargeLanguageModels,LLMs)在多种自然语言处理(NaturalLanguageProcessing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。
http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1自2017年 Google提出 Transformer以来,自然语言处理的研究已逐步统一到这种具有灵活堆叠扩展能力的编解码框架下。特别是,人们可以基于 Transformer的编码端和解码端,通过无监督的方式,使用大规模数据预训练具有通用语言能力的基础模型,如基

原文链接：「大型语言模型评测」综述