通用端到端OCR模型开源，拒绝多模态大模型降维打击

AIGC动态欢迎阅读

原标题：通用端到端OCR模型开源，拒绝多模态大模型降维打击
关键字：模型,能力,团队,数据,阶段
文章来源：量子位
内容字数：0字

内容摘要：

Vary团队投稿凹非寺量子位 | 公众号 QbitAI在AI-2.0时代，OCR模型的研究难道到头了吗！？（OCR：一种将图像中的文字转换为可编辑和可搜索文本的技术）
Vary作者团队开源了第一个迈向OCR-2.0的通用端到端模型GOT。
用实验结果向人们证明：No~No~No~
GOT模型效果如何？话不多说，直接上效果图：
△最常用的PDF image转markdown能力
△双栏文本感知能力
△自然场景以及细粒度OCR能力
△动态分辨率OCR能力
△多页OCR能力
△更多符号的OCR能力研究团队称，尽管GOT模型表现不错，但也存在一些局限，如更多的语言支持，更复杂的几何图，chart上的OCR性能。
他们说OCR-2.0的研究还远的很，GOT也还有不小提升空间（该项目在数据和算力资源上都是非常受限的）。
正是因为深知GOT以及OCR-2.0的潜力，我们希望通过开源GOT吸引更多的人，放弃VQA，再次投向强感知。都说纯OCR容易背锅，但也正好说明做的不够work，不是吗？
GOT: Towards OCR-2.0通用OCR模型须要够通用，体现在输入输出都要通用上。
GOT的通用具体

原文链接：通用端到端OCR模型开源，拒绝多模态大模型降维打击