Unlimited-OCR

Unlimited-OCR – 百度开源的端到端长文档 OCR 模型

百度最新推出的 Unlimited-OCR 模型，以其创新的 Reference Sliding Window Attention (R-SWA) 机制，彻底革新了长文档的 OCR 处理方式。该技术巧妙地将解码器的 KV 缓存从以往的线性增长压缩为恒定大小，从而实现了单次前向推理即可处理数十页文档的壮举。

Unlimited-OCR 究竟是什么？

Unlimited-OCR 是百度精心打造的一款端到端长文档 OCR 解决方案。其核心亮点在于其独特的 R-SWA 注意力机制，它能够将解码器的 KV 缓存大小维持在一个常数水平，极大地克服了传统模型在处理长文档时因缓存而导致的性能瓶颈。这使得 Unlimited-OCR 能够一次性识别数十页的文档，显著提升了处理效率。该模型基于 3B 参数的 MoE（Mixture of Experts）架构，在 OmniDocBench v1.6 基准测试中以 93.92% 的总分荣获端到端识别的 SOTA（State-of-the-Art）成绩。此外，其推理速度高达 5580 TPS，并且相关的代码和模型权重已全部开源。

Unlimited-OCR 的主要功能亮点

超长文档一次性识别：支持从 2 页到 40 页以上 PDF 文档的单次前向转录，彻底告别了逐页循环处理的繁琐模式。
多类型文档解析能力：能够全面覆盖 PPT、学术论文、书籍、彩色教材、试卷、杂志、报纸、笔记、研究报告等 9 大类文档版式。
高精度内容提取：能够端到端地输出文本、数学公式、表格以及正确的阅读顺序，其中公式识别的 CDM 指标达到 95.79%，表格识别的 TEDS 指标更是高达 93.32%。
双分辨率视觉编码：采用 Base 模式（1024×1024 分辨率）处理多页长文档，以及 Gundam 模式（动态分辨率）进行单页高精度识别，满足不同场景需求。
恒定延迟推理：无论输出序列多长，KV 缓存始终保持在 m+n 的恒定容量，确保推理延迟和显存占用始终保持稳定。

Unlimited-OCR 的技术原理剖析

R-SWA 注意力机制：该机制使得每个生成 token 仅需关注所有参考 token（包括视觉信息和提示词）以及最近的 128 个输出 token。关键在于，视觉 token 被排除在滑动窗口的状态转移之外，有效避免了长程生成过程中视觉特征的衰减和模糊。
恒定 KV Cache 设计：通过将 KV Cache 实现为一个容量为 m+n 的队列，每生成一个新的 token，就淘汰掉队列中的第一个 token。这样一来，计算成本和内存占用就不会随着序列长度的增加而增长。
DeepEncoder 视觉编码：沿用了 SAM-ViT 级联 CLIP-ViT 的架构，并通过一个 bridge 层实现了 16 倍的 token 压缩。1024×1024 的图像被压缩为 256 个视觉 token，并且编码过程仅需一次，之后便被冻结。
MoE-LLM 解码器：该解码器采用 3B 总参数、500M 激活的 MoE 架构。所有注意力层均被 R-SWA 机制替换，并在 DeepSeek-OCR checkpoint 的基础上进行了 4000 步的续训，全局 batch size 为 256，最大序列长度可达 32K。
推理引擎优化：在 Transformers 和 SGLang 框架中均实现了恒定的 TPS 和恒定的显存占用 KV Cache 管理。在 Flash Attention v3 内核的支持下，每次调用的延迟全程保持水平。

关注微信公众号，回复“开源”，即可加入AI开源项目交流群。

如何使用 Unlimited-OCR

模型获取：您可以从 Hugging Face 的 baidu/Unlimited-OCR 仓库或 GitHub 的 baidu/Unlimited-OCR 仓库下载代码与权重。
环境准备：支持 Transformers 库和 SGLang 推理引擎，需要配置相应的 GPU 环境。
输入格式：支持 PDF 页面图像作为输入。Base 模式适用于多页长文档，Gundam 模式则用于单页高分辨率识别。
推理调用：只需一次前向传播即可完成整本或整份文档的 OCR 转录，无需外部调度器进行分页处理。
扩展应用：R-SWA 机制具有通用性，可迁移应用于 ASR（自动语音识别）、机器翻译、字幕生成等需要长序列输出的任务。

Unlimited-OCR 的核心优势

SOTA 级别的识别精度：在 OmniDocBench v1.5 基准上获得 93.23% 的总分，在 v1.6 上更是达到了 93.92%，稳居端到端识别性能榜首。
恒定的资源占用：KV Cache 不会随着文档页数的增加而增长，即使处理 20 页或 40 页以上的长文档，显存占用和推理延迟也保持稳定。
速度随长度放大：输出序列越长，其速度优势越发明显。在 6144 token 的情况下，理论 TPS 上限比 DeepSeek-OCR 领先约 35%。
通用解码架构：R-SWA 并非 OCR 独有的技巧，而是适用于任何“参考源+长输出”的生成任务。
轻量级开源：模型参数为 3B 总参，激活参数为 500M，模型和代码均已开源，方便部署和二次开发。

Unlimited-OCR 的项目地址

GitHub 仓库：https://github.com/baidu/Unlimited-OCR
HuggingFace 模型库：https://huggingface.co/baidu/Unlimited-OCR

Unlimited-OCR 与同类竞品对比

维度	Unlimited-OCR	DeepSeek-OCR
模型规模	3B-A0.5B (MoE)	3B-A0.5B (MoE)
注意力机制	R-SWA（参考滑动窗口注意力）	标准全注意力
KV Cache 增长	恒定（m+n），与序列长度无关	线性增长，随输出序列累积
OmniDocBench v1.5 总分	93.23%	87.01%
OmniDocBench v1.6 总分	93.92%	90.25%（DeepSeek-OCR 2）
文本编辑距离	0.038	0.073
公式 CDM	92.61%	83.37%
表格 TEDS	90.93%	84.97%
阅读顺序编辑距离	0.045	0.086
推理速度	5580 TPS，全程恒定延迟	4951 TPS，延迟随长度递增
长文档支持	单次前向处理 40+ 页，无需分页	长序列受 KV Cache 膨胀限制，需分页处理
训练基础	基于 DeepSeek-OCR checkpoint 续训 4000 步	基座模型

Unlimited-OCR 的应用场景

企业档案数字化：可批量处理扫描版 PDF、古籍、合订本等文件，实现一次性结构化内容提取，无需拆分。
学术文献解析：能够端到端地转录整本论文、期刊合辑、研究报告，并完整保留公式、表格和阅读顺序。
教育试卷批改：支持多页试卷、练习册的批量识别，并能处理彩色教材和复杂版式。
法律合同审核：可精准提取长篇幅合同文本的 OCR 内容，为后续的 NLP 分析和合规审查提供便利。
多语言翻译流水线：作为 R-SWA 通用解码方案的实践，可进一步扩展至 ASR、字幕生成等长序列处理任务。

阅读原文

# AI工具 # AI项目和框架 # PDF文件OCR # 图片文字识别OCR # 手写文字识别OCR # 文档扫描OCR # 表格数据提取OCR

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...