上海AI Lab 搭台，36个大模型一起角逐长上下文建模能力

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：上海AI Lab 搭台，36个大模型一起角逐长上下文建模能力
关键字：模型,任务,文本,报告,逻辑推理
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | Richard现在的大模型论文简直像是在比长度，动不动就上百页！记得前阵子小编瞅见那份90页的Gemini技术报告，顿时脑袋嗡嗡作响。那会儿就幻想着：要是有个AI大脑来啃下这些”学术巨无霸”，那岂不是爽歪歪？
没想到过了几个月，这个幻想竟然实现了！如今大语言模型正在挑战这一难题，试图成为我们阅读长文本的得力助手。但问题是，这些AI助手自己对付长文本的能力如何呢？
近日，上海AI实验室推出了一个名为NeedleBench的评测框架，对36个主流大模型展开了一场别开生面的”长文本拼”。这项研究不仅测试了模型们在不同长度文本上的表现，还设计了一系列渐进式的挑战任务，就像是给LLMs出了一道道难度递增的阅读理解题。
有趣的是，在这场比拼中被誉为”LLM界的高考状元”的GPT-4竟然只拿到了第二名！反倒是Claude-3-Opus后来者居上，一举夺魁。这个结果让不少人大跌眼镜，也引发了业界对大模型长文本能力的新思考。
研究还发现，虽然这些AI模型在找出单一关键信息方面表现不错，就像能准确回答”课文第三段第二句说了什么”，但在需要综合分析、逻辑推理的复杂问题上，它们

原文链接：上海AI Lab 搭台，36个大模型一起角逐长上下文建模能力