GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

AIGC动态5个月前发布 量子位
5 0 0

GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

AIGC动态欢迎阅读

原标题:GPT-4o弱点暴露了,PDF长文档阅读理解仅45分
关键字:模型,问题,信息,能力,内容
文章来源:量子位
内容字数:0字

内容摘要:


YuBo Ma 投稿量子位 | 公众号 QbitAI图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR,layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展,PDF长文档的端到端阅读理解成为了可能。
为了评测多模态大模型在PDF长文档上的阅读理解能力,由上海AI Lab领衔提出的MMLongBench-Doc评估基准测试了14个LVLMs(视觉语言大模型)。
评估结果表明:表现最好的GPT-4o在整体F1分数上也只达到了 44.9%。
GPT-4V排名第二,得分30.5%。
除了这两个模型,其他被评测LVLMs的表现更是要弱于OCR+LLMs形式。
这些结果表明,目前的LVLMs在端到端PDF长文档阅读任务上虽然表现出了一定的潜力,但仍然还有很大的提升空间。
135个PDF、1091个问题LVLMs的出现有效促进了文档理解任务的解决。针对单页文档,常见的闭源和开源模型都展示出了相当不错的表现(DocVQA > 90%;ChartQA > 80%)。然而,日常生活中阅读的文档,如论文、财报、宣传资料,往往有更多的页数,许多文档长度可以达到


原文链接:GPT-4o弱点暴露了,PDF长文档阅读理解仅45分

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...