AIGC动态欢迎阅读
原标题:无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成
关键字:模型,任务,长程,能力,长上
文章来源:量子位
内容字数:0字
内容摘要:
LooGLE团队 投稿自 凹非寺量子位 | 公众号 QbitAI在长文本理解能力这块,竟然没有一个大模型及格!
北大联合北京通用人工智能研究院提出了一个新基准数据集:LooGLE,专门用于测试和评估大语言模型(LLMs)长上下文理解能力。
该数据集既能够评估LLMs对长文本的处理和检索能力,又可以评估其对文本长程依赖的建模和理解能力。
结果不评不知道,一评估发现这些模型在复杂的长依赖任务中的多信息检索、时间重排序、计算、理解推理能力表现均不乐观。
比如像Claude3-200k,GPT4-32k、GPT4-8k、GPT3.5-turbo-6k、LlamaIndex这种商业模型,平均只有40%的准确率。
而像开源模型表现就更不理想了…
ChatGLM2-6B、LongLLaMa-3B、RWKV-4-14B-pile、LLaMA-7B-32K平均只有10%的准确率。
目前该论文已被ACL 2024接收。
论文共同一作为通研院的李佳琪、王萌萌,通讯作者为通研院研究员郑子隆和北京大学人工智能研究院助理教授张牧涵。
LooGLE基准测试LooGLE基准测试主要有这样几个特点:
首先,它包含包含近
原文链接:无一大模型及格! 北大/通研院提出超难基准,专门评估长文本理解生成
联系作者
文章来源:量子位
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...