OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

AIGC动态3年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！
关键字：词表,模型,视觉,能力,图片
文章来源：量子位
内容字数：2522字

内容摘要：

国科大&旷视团队投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式？
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——
这一次，只需一句话命令，多模态大模型Vary直接端到端输出结果：
无论是中英文的大段文字：
还是包含了公式的文档图片：
又或是手机页面截图：
甚至可以将图片中的表格转换成latex格式：
当然，作为多模大模型，通用能力的保持也是必须的：
Vary表现出了很大的潜力和极高的上限，OCR可以不再需要冗长的pipline，直接端到端输出，且可以按用户的prompt输出不同的格式如latex 、word 、markdown。
通过大模型极强的语言先验，这种架构还可以避免OCR中的易错字，比如“杠杆”和“杜杆”等，对于模糊文档，也有望在语言先验的帮助下实现更强的OCR效果。
项目一出，引发了不少网友的关注，有网友看后直呼“kill the game！”
那么这样的效果，是如何做到的呢？
受大模型启发打造目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实，在400M图像文本对训练的

原文链接：OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！