英伟达新研究：上下文长度虚标严重，32K性能合格的都不多

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：英伟达新研究：上下文长度虚标严重，32K性能合格的都不多
关键字：模型,长度,上下文,任务,长上
文章来源：量子位
内容字数：0字

内容摘要：

西风发自凹非寺量子位 | 公众号 QbitAI无情戳穿“长上下文”大模型的虚标现象——
英伟达新研究发现，包括GPT-4在内的10个大模型，生成达到128k甚至1M上下文长度的都有。
但一番考验下来，在新指标“有效上下文”上缩水严重，能达到32K的都不多。
新基准名为RULER，包含检索、多跳追踪、聚合、问答四大类共13项任务。RULER定义了“有效上下文长度”，即模型能保持与Llama-7B基线在4K长度下同等性能的最大长度。
这项研究被学者评价为“非常有洞察力”。
不少网友看到这项新研究后，也非常想看到上下文长度王者玩家Claude和Gemini的挑战结果。（论文中并未覆盖）
一起来看英伟达是如何定义“有效上下文”指标的。
测试任务更多、更难要评测大模型的长文本理解能力，得先选个好标准，现圈内流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等，要么仅评估了模型检索能力，要么受限于先验知识的干扰。
所以英伟达剔除的RULER方法，一句话概括就是“确保评估侧重于模型处理和理解长上下文的能力，而不是从训练数据中回忆信息的能力”。
RULER的

原文链接：英伟达新研究：上下文长度虚标严重，32K性能合格的都不多