OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA
关键字：文本,任务,视频,模型,方法
文章来源：新智元
内容字数：19412字

内容摘要：

新智元报道编辑：LRT
【新智元导读】通过提示查询生成模块和任务感知适配器，大一统框架VimTS在不同任务间实现更好的协同作用，显著提升了模型的泛化能力。该方法在多个跨域基准测试中表现优异，尤其在视频级跨域自适应方面，仅使用图像数据就实现了比现有端到端视频识别方法更高的性能。文本端到端识别是一项从图像或视频序列中提取文本信息的任务，虽然取得了一些进展，但跨领域文本端到端识别仍然是一个难题，面临着图像到图像和图像到视频泛化等跨域自适应的挑战。图1 图(a)和图(b)是两种跨域文本端到端识别，包括图像到图像和图像到视频。TT表示TotalText，IC15代表ICDAR2015，IC13代表视频ICDAR2013。
图像级跨域文本端到端识别面临样式、字体、背景等差异挑战，模型需要具备极强的泛化能力。
不同数据集间的格式差异也是跨域文本端到端识别重要的问题，如Total-Text和ICDAR2015使用词级注释，CTW1500使用行级注释。视频级跨域文本端到端识别中，由于视频文本中存在着如遮挡、场景变化和文本快速等因素，现有静态图像的方法在视频环境通常表现不佳，如图2所示。图2 将静态

原文链接：OCR小模型仍有机会！华科等提出VIMTS：零样本视频端到端识别新SOTA