阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%
关键字：模型,图片,视觉,特征,文字
文章来源：量子位
内容字数：0字

内容摘要：

mPLUG团队投稿量子位 | 公众号 QbitAI高效多页文档理解，阿里通义实验室mPLUG团队拿下新SOTA。
最新多模态大模型mPLUG-DocOwl 2，仅以324个视觉token表示单个文档图片，在多个多页文档问答Benchmark上超越此前SOTA结果。
并且在A100-80G单卡条件下，做到分辨率为1653×2339的文档图片一次性最多支持输入60页！
△单个A100-80G最多能支持文档图片(分辨率=1653×2339)的数量以及首包时间
mPLUG-DocOwl是利用多模态大模型进行OCR-free文档理解的一系列前沿探索工作。
DocOwl 1.0首次提出基于多模态大模型进行文档理解方面的多任务指令微调；
UReader首次提出利用切图的策略来处理高清文档图片，成为目前高清图片理解的主流方案；
DocOwl 1.5提出统一结构学习，将多个bechmark的开源效果提升超过10个点，成为多模态大模型在文档理解方面的主要对比基准。
随着文档图片的分辨率以及切图数量的不断增加，开源多模态大模型的文档理解性能有了显著提升，然而这也导致视觉特征在大模型解码时占用了过多的视觉t

原文链接：阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%