上海AI Lab 搭台,36个大模型一起角逐长上下文建模能力

上海AI Lab 搭台,36个大模型一起角逐长上下文建模能力

AIGC动态欢迎阅读

原标题:上海AI Lab 搭台,36个大模型一起角逐长上下文建模能力
关键字:模型,任务,文本,报告,逻辑推理
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 | Richard现在的大模型论文简直像是在比长度,动不动就上百页!记得前阵子小编瞅见那份90页的Gemini技术报告,顿时脑袋嗡嗡作响。那会儿就幻想着:要是有个AI大脑来啃下这些”学术巨无霸”,那岂不是爽歪歪?
没想到过了几个月,这个幻想竟然实现了!如今大语言模型正在挑战这一难题,试图成为我们阅读长文本的得力助手。但问题是,这些AI助手自己对付长文本的能力如何呢?
近日,上海AI实验室推出了一个名为NeedleBench的评测框架,对36个主流大模型展开了一场别开生面的”长文本大比拼”。这项研究不仅测试了模型们在不同长度文本上的表现,还设计了一系列渐进式的挑战任务,就像是给LLMs出了一道道难度递增的阅读理解题。
有趣的是,在这场比拼中被誉为”LLM界的高考状元”的GPT-4竟然只拿到了第二名!反倒是Claude-3-Opus后来者居上,一举夺魁。这个结果让不少人大跌眼镜,也引发了业界对大模型长文本能力的新思考。
研究还发现,虽然这些AI模型在找出单一关键信息方面表现不错,就像能准确回答”课文第三段第二句说了什么”,但在需要综合分析、逻辑推理的复杂问题上,它们


原文链接:上海AI Lab 搭台,36个大模型一起角逐长上下文建模能力

联系作者

文章来源:夕小瑶科技说
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...