AIGC动态欢迎阅读
原标题:阿里通义实验室高级算法工程师文束:mPLUG-DocOwl:多模态文档理解大模型
关键字:模型,阿里巴巴,算法,编码器,视觉
文章来源:算法邦
内容字数:1803字
内容摘要:
1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 ControlLLM、长视频理解视觉语言模型 LLaMA-VID和多模态文档理解大模型 mPLUG-DocOwl,香港科技大学在读博士刘兆洋、香港中文大学在读博士李彦玮和阿里巴巴通义实验室高级算法工程师文束将参与主讲。
其中,文束将围绕主题《mPLUG-DocOwl:多模态文档理解大模型》进行直播讲解。
通过对齐视觉编码器和大型语言模型,多模态大模型在通用视觉理解上取得了不错的效果,甚至实现了初步的文字识别能力。然而,由于采用的是低分辨率编码器,他们依旧难以编码富含文字信息的高分辨率(>1k x 1k)的文档类型图片。
为了避免重新训练高分辨率编码器带来的训练代价,我们提出一种形状适应的切图模型将高分辨率图片切割为多个子图,并由语言模型来理解子图之间的关系。通过统一多个文档理解数据集的任务形式,搭配精心设计的两个辅助学习任务,我们的模型经过小参数量的微调在多个文档理解测试集上达到了 ocr-free 的 SOTA 效果。
文束目前是阿里巴
原文链接:阿里通义实验室高级算法工程师文束:mPLUG-DocOwl:多模态文档理解大模型
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:「算法邦」,隶属于智猩猩,关注大模型、生成式AI、计算机视觉三大领域的研究与开发,提供技术文章、讲座、在线研讨会。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...