通用文档理解新SOTA，多模态大模型TextMonkey来了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：通用文档理解新SOTA，多模态大模型TextMonkey来了
关键字：模型,图像,文本,分辨率,相似性
文章来源：机器之心
内容字数：6946字

内容摘要：

机器之心专栏
机器之心编辑部最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中，TextMonkey 处于国际领先地位，有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。论文链接：https://arxiv.org/abs/2403.04473
代码地址：https://github.com/Yuliang-Liu/Monkey
TextMonkey 是一个专注于文本相关任务（包括文档问答和场景文本问答）的多模态大模型（LMM）。相比于 Monkey，TextMonkey 在多个方面进行改进：通过采用零初始化的 Shifted Window Attention，TextMonkey 实现了更高输入分辨率下的窗口间信息交互；通过使用相似性来过滤出重要的图像特征，TextMonkey 不仅能够简化输入，还可以提高模型的性能。
此外，通过扩展多个文本相关任务并将位置信息纳入回答，TextMonkey 增强了可解释性并减少了幻觉。与此同时，Tex

原文链接：通用文档理解新SOTA，多模态大模型TextMonkey来了