阿里通义实验室高级算法工程师文束：mPLUG-DocOwl：多模态文档理解大模型

AIGC动态3年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：阿里通义实验室高级算法工程师文束：mPLUG-DocOwl：多模态文档理解大模型
关键字：模型,阿里巴巴,算法,编码器,视觉
文章来源：算法邦
内容字数：1803字

内容摘要：

1月17日晚7点，智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品，并聚焦于大语言模型工具调用 ControlLLM、长视频理解视觉语言模型 LLaMA-VID和多模态文档理解大模型 mPLUG-DocOwl，香港科技大学在读博士刘兆洋、香港中文大学在读博士李彦玮和阿里巴巴通义实验室高级算法工程师文束将参与主讲。
其中，文束将围绕主题《mPLUG-DocOwl：多模态文档理解大模型》进行直播讲解。
通过对齐视觉编码器和大型语言模型，多模态大模型在通用视觉理解上取得了不错的效果，甚至实现了初步的文字识别能力。然而，由于采用的是低分辨率编码器，他们依旧难以编码富含文字信息的高分辨率(>1k x 1k)的文档类型图片。
为了避免重新训练高分辨率编码器带来的训练代价，我们提出一种形状适应的切图模型将高分辨率图片切割为多个子图，并由语言模型来理解子图之间的关系。通过统一多个文档理解数据集的任务形式，搭配精心设计的两个辅助学习任务，我们的模型经过小参数量的微调在多个文档理解测试集上达到了 ocr-free 的 SOTA 效果。
文束目前是阿里巴

原文链接：阿里通义实验室高级算法工程师文束：mPLUG-DocOwl：多模态文档理解大模型