阿里7B多模态文档理解大模型拿下新SOTA｜开源

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：阿里7B多模态文档理解大模型拿下新SOTA｜开源
关键字：文字,图片,模型,结构,图表
文章来源：量子位
内容字数：8196字

内容摘要：

mPLUG团队投稿量子位 | 公众号 QbitAI多模态文档理解能力新SOTA！
阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5，针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战，提出了一系列解决方案。
话不多说，先来看效果。
复杂结构的图表一键识别转换为Markdown格式：
不同样式的图表都可以：
更细节的文字识别和定位也能轻松搞定：
还能对文档理解给出详细解释：
要知道，“文档理解”目前是大语言模型实现落地的一个重要场景，市面上有很多辅助文档阅读的产品，有的主要通过OCR系统进行文字识别，配合LLM进行文字理解可以达到不错的文档理解能力。
不过，由于文档图片类别多样、文字丰富且排版复杂，难以实现图表、信息图、网页等结构复杂图片的通用理解。
当前爆火的多模态大模型QwenVL-Max、Gemini, Claude3、GPT4V都具备很强的文档图片理解能力，然而开源模型在这个方向上的进展缓慢。
而阿里新研究mPLUG-DocOwl 1.5在10个文档理解基准上拿下SOTA，5个数据集上提升超过10个点，部分数据集上超过智谱17.3B的C

原文链接：阿里7B多模态文档理解大模型拿下新SOTA｜开源