AIGC动态欢迎阅读
原标题:通用文档理解新SOTA,多模态大模型TextMonkey来了
关键字:模型,图像,文本,分辨率,相似性
文章来源:机器之心
内容字数:6946字
内容摘要:
机器之心专栏
机器之心编辑部最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。论文链接:https://arxiv.org/abs/2403.04473
代码地址:https://github.com/Yuliang-Liu/Monkey
TextMonkey 是一个专注于文本相关任务(包括文档问答和场景文本问答)的多模态大模型(LMM)。相比于 Monkey,TextMonkey 在多个方面进行改进:通过采用零初始化的 Shifted Window Attention,TextMonkey 实现了更高输入分辨率下的窗口间信息交互;通过使用相似性来过滤出重要的图像特征,TextMonkey 不仅能够简化输入,还可以提高模型的性能。
此外,通过扩展多个文本相关任务并将位置信息纳入回答,TextMonkey 增强了可解释性并减少了幻觉。与此同时,Tex
原文链接:通用文档理解新SOTA,多模态大模型TextMonkey来了
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...