AIGC动态欢迎阅读
原标题:OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
关键字:词表,模型,视觉,能力,图片
文章来源:量子位
内容字数:2522字
内容摘要:
国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式?
以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——
这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果:
无论是中英文的大段文字:
还是包含了公式的文档图片:
又或是手机页面截图:
甚至可以将图片中的表格转换成latex格式:
当然,作为多模大模型,通用能力的保持也是必须的:
Vary表现出了很大的潜力和极高的上限,OCR可以不再需要冗长的pipline,直接端到端输出,且可以按用户的prompt输出不同的格式如latex 、word 、markdown。
通过大模型极强的语言先验,这种架构还可以避免OCR中的易错字,比如“杠杆”和“杜杆”等, 对于模糊文档,也有望在语言先验的帮助下实现更强的OCR效果。
项目一出,引发了不少网友的关注,有网友看后直呼“kill the game!”
那么这样的效果,是如何做到的呢?
受大模型启发打造目前的多模态大模型几乎都是用CLIP作为Vision Encoder或者说视觉词表。确实,在400M图像文本对训练的
原文链接:OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...