打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

AIGC动态3个月前发布 量子位
330 0 0

LLM生成长段回复的能力还有待加强

打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度

原标题:打脸!GPT-4o输出长度8k都勉强,陈丹琦团队新基准测试:所有模型输出都低于标称长度
文章来源:量子位
内容字数:5290字

长上下文大模型能力再评估:32K tokens的“水分”与LONGPROC基准

近期,陈丹琦团队提出的全新基准测试工具LONGPROC,对现有长上下文大模型(LLM)的能力提出了质疑。尽管许多大模型宣称能输出32K tokens的文本,但实际表现却大打折扣。LONGPROC专注于评估模型处理复杂信息并生成长文本的能力,实验结果显示,即使是GPT-4o等顶尖模型,在处理8K tokens的复杂任务时也性能下降明显,存在“幻觉”等问题。

1. LONGPROC基准:更严格的测试标准

现有基准主要关注长上下文记忆,而忽略了模型整合分散信息、生成长文本的能力。LONGPROC基准包含六个复杂任务,要求模型输出超过1K tokens,并提供确定性解决方案,更全面地评估模型的长上下文处理能力。这六个任务分别是:

  1. HTML到TSV:从HTML页面提取信息并格式化为表格。
  2. 伪代码生成代码:将伪代码翻译成C++代码。
  3. 路径遍历:在公共交通网络中寻找路径。
  4. Theory-of-Mind跟踪:跟踪故事中对象位置的思想变化。
  5. Countdown游戏:使用四个数字和基本算术操作找到目标数字。
  6. 旅行规划:生成满足多种约束的多城市旅行计划。

LONGPROC 基准不仅考察输出长度,还关注信息获取方式、演绎推理和搜索能力等方面。

2. 实验结果:模型性能普遍下降

实验涵盖17个模型,包括GPT-4o、Claude 3.5、Gemini 1.5等闭源模型和多个开源模型。结果显示,所有模型在长程序生成任务中都表现出显著的性能下降。即使是GPT-4o,在8K tokens的任务中也难以保持稳定性。开源模型普遍表现不佳,而中等规模的开源模型在低难度任务上与GPT-4o表现接近,但在某些特定8K任务中甚至超越了GPT-4o。

3. 模型表现与任务类型相关

模型性能与任务类型密切相关。需要更长推理链的任务(如Theory-of-Mind跟踪、Countdown游戏和旅行规划)导致模型性能下降更为显著。GPT-4o等模型的准确率在这些任务现直线下降。

4. 与人类能力的差距

与人类表现相比,当前模型仍存在显著差距。例如,在Countdown游戏中,人类解决了10个问题,而GPT-4o仅解决7个。

5. 结论与未来方向

LONGPROC 基准有效评估了模型在长程序生成任务中的表现,揭示了即使是最先进的模型,在生成连贯的长文本方面仍有很大的改进空间。尤其是在8K tokens的任务中,大型模型表现不佳,这将是未来LLM研究的重要方向。

6. 论文作者

论文一作是清华校友叶曦(Xi Ye),目前是普林斯顿大学博士后研究员,并将于2025年7月加入阿尔伯塔大学担任助理教授。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...