「大型语言模型评测」综述

「大型语言模型评测」综述

AIGC动态欢迎阅读

原标题:「大型语言模型评测」综述
关键字:模型,语言,任务,能力,报告
文章来源:人工智能学家
内容字数:10906字

内容摘要:


来源:专知
大语言模型(LargeLanguageModels,LLMs)在多种自然语言处理(NaturalLanguageProcessing,NLP)任 务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估 大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结 果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方 法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不 足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。
http://jcip.cipsc.org.cn/CN/Y2024/V38/I1/1自2017年 Google提出 Transformer以来,自 然语言处理的研究已逐步统一到这种具有灵活堆叠 扩展能力的编解码框架下。特别是,人们可以基于 Transformer的编码端和解码端,通过无监督的方 式,使用大规模数据预训练具有通用语言能力的基 础模型,如基


原文链接:「大型语言模型评测」综述

联系作者

文章来源:人工智能学家
作者微信:AItists
作者简介:致力成为权威的人工智能科技媒体和前沿科技研究机构

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...