通用端到端OCR模型开源,拒绝多模态大模型降维打击

通用端到端OCR模型开源,拒绝多模态大模型降维打击

AIGC动态欢迎阅读

原标题:通用端到端OCR模型开源,拒绝多模态大模型降维打击
关键字:模型,能力,团队,数据,阶段
文章来源:量子位
内容字数:0字

内容摘要:


Vary团队投稿 凹非寺量子位 | 公众号 QbitAI在AI-2.0时代,OCR模型的研究难道到头了吗!?(OCR:一种将图像中的文字转换为可编辑和可搜索文本的技术)
Vary作者团队开源了第一个迈向OCR-2.0的通用端到端模型GOT。
用实验结果向人们证明:No~No~No~
GOT模型效果如何?话不多说,直接上效果图:
△最常用的PDF image转markdown能力
△双栏文本感知能力
△自然场景以及细粒度OCR能力
△动态分辨率OCR能力
△多页OCR能力
△更多符号的OCR能力研究团队称,尽管GOT模型表现不错,但也存在一些局限,如更多的语言支持,更复杂的几何图,chart上的OCR性能。
他们说OCR-2.0的研究还远的很,GOT也还有不小提升空间(该项目在数据和算力资源上都是非常受限的)。
正是因为深知GOT以及OCR-2.0的潜力,我们希望通过开源GOT吸引更多的人,放弃VQA,再次投向强感知。都说纯OCR容易背锅,但也正好说明做的不够work,不是吗?
GOT: Towards OCR-2.0通用OCR模型须要够通用,体现在输入输出都要通用上。
GOT的通用具体


原文链接:通用端到端OCR模型开源,拒绝多模态大模型降维打击

联系作者

文章来源:量子位
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...