GPT-4o弱点暴露了，PDF长文档阅读理解仅45分

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：GPT-4o弱点暴露了，PDF长文档阅读理解仅45分
关键字：模型,问题,信息,能力,内容
文章来源：量子位
内容字数：0字

内容摘要：

YuBo Ma 投稿量子位 | 公众号 QbitAI图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR，layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展，PDF长文档的端到端阅读理解成为了可能。
为了评测多模态大模型在PDF长文档上的阅读理解能力，由上海AI Lab领衔提出的MMLongBench-Doc评估基准测试了14个LVLMs（视觉语言大模型）。
评估结果表明：表现最好的GPT-4o在整体F1分数上也只达到了 44.9%。
GPT-4V排名第二，得分30.5%。
除了这两个模型，其他被评测LVLMs的表现更是要弱于OCR+LLMs形式。
这些结果表明，目前的LVLMs在端到端PDF长文档阅读任务上虽然表现出了一定的潜力，但仍然还有很大的提升空间。
135个PDF、1091个问题LVLMs的出现有效促进了文档理解任务的解决。针对单页文档，常见的闭源和开源模型都展示出了相当不错的表现（DocVQA > 90%；ChartQA > 80%）。然而，日常生活中阅读的文档，如论文、财报、宣传资料，往往有更多的页数，许多文档长度可以达到

原文链接：GPT-4o弱点暴露了，PDF长文档阅读理解仅45分