AIGC动态欢迎阅读
原标题:阿里7B多模态文档理解大模型拿下新SOTA|开源
关键字:文字,图片,模型,结构,图表
文章来源:量子位
内容字数:8196字
内容摘要:
mPLUG团队 投稿量子位 | 公众号 QbitAI多模态文档理解能力新SOTA!
阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。
话不多说,先来看效果。
复杂结构的图表一键识别转换为Markdown格式:
不同样式的图表都可以:
更细节的文字识别和定位也能轻松搞定:
还能对文档理解给出详细解释:
要知道,“文档理解”目前是大语言模型实现落地的一个重要场景,市面上有很多辅助文档阅读的产品,有的主要通过OCR系统进行文字识别,配合LLM进行文字理解可以达到不错的文档理解能力。
不过,由于文档图片类别多样、文字丰富且排版复杂,难以实现图表、信息图、网页等结构复杂图片的通用理解。
当前爆火的多模态大模型QwenVL-Max、Gemini, Claude3、GPT4V都具备很强的文档图片理解能力,然而开源模型在这个方向上的进展缓慢。
而阿里新研究mPLUG-DocOwl 1.5在10个文档理解基准上拿下SOTA,5个数据集上提升超过10个点,部分数据集上超过智谱17.3B的C
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...