Unlimited-OCR – 百度开源的端到端长文档 OCR 模型
百度最新推出的 Unlimited-OCR 模型,以其创新的 Reference Sliding Window Attention (R-SWA) 机制,彻底革新了长文档的 OCR 处理方式。该技术巧妙地将解码器的 KV 缓存从以往的线性增长压缩为恒定大小,从而实现了单次前向推理即可处理数十页文档的壮举。
Unlimited-OCR 究竟是什么?
Unlimited-OCR 是百度精心打造的一款端到端长文档 OCR 解决方案。其核心亮点在于其独特的 R-SWA 注意力机制,它能够将解码器的 KV 缓存大小维持在一个常数水平,极大地克服了传统模型在处理长文档时因缓存而导致的性能瓶颈。这使得 Unlimited-OCR 能够一次性识别数十页的文档,显著提升了处理效率。该模型基于 3B 参数的 MoE(Mixture of Experts)架构,在 OmniDocBench v1.6 基准测试中以 93.92% 的总分荣获端到端识别的 SOTA(State-of-the-Art)成绩。此外,其推理速度高达 5580 TPS,并且相关的代码和模型权重已全部开源。
Unlimited-OCR 的主要功能亮点
- 超长文档一次性识别:支持从 2 页到 40 页以上 PDF 文档的单次前向转录,彻底告别了逐页循环处理的繁琐模式。
- 多类型文档解析能力:能够全面覆盖 PPT、学术论文、书籍、彩色教材、试卷、杂志、报纸、笔记、研究报告等 9 大类文档版式。
- 高精度内容提取:能够端到端地输出文本、数学公式、表格以及正确的阅读顺序,其中公式识别的 CDM 指标达到 95.79%,表格识别的 TEDS 指标更是高达 93.32%。
- 双分辨率视觉编码:采用 Base 模式(1024×1024 分辨率)处理多页长文档,以及 Gundam 模式(动态分辨率)进行单页高精度识别,满足不同场景需求。
- 恒定延迟推理:无论输出序列多长,KV 缓存始终保持在 m+n 的恒定容量,确保推理延迟和显存占用始终保持稳定。
Unlimited-OCR 的技术原理剖析
- R-SWA 注意力机制:该机制使得每个生成 token 仅需关注所有参考 token(包括视觉信息和提示词)以及最近的 128 个输出 token。关键在于,视觉 token 被排除在滑动窗口的状态转移之外,有效避免了长程生成过程中视觉特征的衰减和模糊。
- 恒定 KV Cache 设计:通过将 KV Cache 实现为一个容量为 m+n 的队列,每生成一个新的 token,就淘汰掉队列中的第一个 token。这样一来,计算成本和内存占用就不会随着序列长度的增加而增长。
- DeepEncoder 视觉编码:沿用了 SAM-ViT 级联 CLIP-ViT 的架构,并通过一个 bridge 层实现了 16 倍的 token 压缩。1024×1024 的图像被压缩为 256 个视觉 token,并且编码过程仅需一次,之后便被冻结。
- MoE-LLM 解码器:该解码器采用 3B 总参数、500M 激活的 MoE 架构。所有注意力层均被 R-SWA 机制替换,并在 DeepSeek-OCR checkpoint 的基础上进行了 4000 步的续训,全局 batch size 为 256,最大序列长度可达 32K。
- 推理引擎优化:在 Transformers 和 SGLang 框架中均实现了恒定的 TPS 和恒定的显存占用 KV Cache 管理。在 Flash Attention v3 内核的支持下,每次调用的延迟全程保持水平。
关注微信公众号,回复“开源”,即可加入AI开源项目交流群。
如何使用 Unlimited-OCR
- 模型获取:您可以从 Hugging Face 的
baidu/Unlimited-OCR仓库或 GitHub 的baidu/Unlimited-OCR仓库下载代码与权重。 - 环境准备:支持 Transformers 库和 SGLang 推理引擎,需要配置相应的 GPU 环境。
- 输入格式:支持 PDF 页面图像作为输入。Base 模式适用于多页长文档,Gundam 模式则用于单页高分辨率识别。
- 推理调用:只需一次前向传播即可完成整本或整份文档的 OCR 转录,无需外部调度器进行分页处理。
- 扩展应用:R-SWA 机制具有通用性,可迁移应用于 ASR(自动语音识别)、机器翻译、字幕生成等需要长序列输出的任务。
Unlimited-OCR 的核心优势
- SOTA 级别的识别精度:在 OmniDocBench v1.5 基准上获得 93.23% 的总分,在 v1.6 上更是达到了 93.92%,稳居端到端识别性能榜首。
- 恒定的资源占用:KV Cache 不会随着文档页数的增加而增长,即使处理 20 页或 40 页以上的长文档,显存占用和推理延迟也保持稳定。
- 速度随长度放大:输出序列越长,其速度优势越发明显。在 6144 token 的情况下,理论 TPS 上限比 DeepSeek-OCR 领先约 35%。
- 通用解码架构:R-SWA 并非 OCR 独有的技巧,而是适用于任何“参考源+长输出”的生成任务。
- 轻量级开源:模型参数为 3B 总参,激活参数为 500M,模型和代码均已开源,方便部署和二次开发。
Unlimited-OCR 的项目地址
- GitHub 仓库:https://github.com/baidu/Unlimited-OCR
- HuggingFace 模型库:https://huggingface.co/baidu/Unlimited-OCR
Unlimited-OCR 与同类竞品对比
| 维度 | Unlimited-OCR | DeepSeek-OCR |
|---|---|---|
| 模型规模 | 3B-A0.5B (MoE) | 3B-A0.5B (MoE) |
| 注意力机制 | R-SWA(参考滑动窗口注意力) | 标准全注意力 |
| KV Cache 增长 | 恒定(m+n),与序列长度无关 | 线性增长,随输出序列累积 |
| OmniDocBench v1.5 总分 | 93.23% | 87.01% |
| OmniDocBench v1.6 总分 | 93.92% | 90.25%(DeepSeek-OCR 2) |
| 文本编辑距离 | 0.038 | 0.073 |
| 公式 CDM | 92.61% | 83.37% |
| 表格 TEDS | 90.93% | 84.97% |
| 阅读顺序编辑距离 | 0.045 | 0.086 |
| 推理速度 | 5580 TPS,全程恒定延迟 | 4951 TPS,延迟随长度递增 |
| 长文档支持 | 单次前向处理 40+ 页,无需分页 | 长序列受 KV Cache 膨胀限制,需分页处理 |
| 训练基础 | 基于 DeepSeek-OCR checkpoint 续训 4000 步 | 基座模型 |
Unlimited-OCR 的应用场景
- 企业档案数字化:可批量处理扫描版 PDF、古籍、合订本等文件,实现一次性结构化内容提取,无需拆分。
- 学术文献解析:能够端到端地转录整本论文、期刊合辑、研究报告,并完整保留公式、表格和阅读顺序。
- 教育试卷批改:支持多页试卷、练习册的批量识别,并能处理彩色教材和复杂版式。
- 法律合同审核:可精准提取长篇幅合同文本的 OCR 内容,为后续的 NLP 分析和合规审查提供便利。
- 多语言翻译流水线:作为 R-SWA 通用解码方案的实践,可进一步扩展至 ASR、字幕生成等长序列处理任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


