PaddleOCR-VL-1.6

PaddleOCR-VL-1.6 – 百度推出的文档解析视觉语言模型

百度飞桨团队最新推出的 PaddleOCR-VL-1.6，是其备受瞩目的文档解析视觉语言模型（VLM）系列的革新之作。这款模型在性能上实现了重大突破，仅以 0.9B 的参数量，就在权威的 OmniDocBench v1.6 基准测试中取得了 96.33% 的惊人 SOTA（State-of-the-Art）成绩。更令人瞩目的是，它还在 OmniDocBench v1.5 和 Real5-OmniDocBench 上刷新了记录，在文本、公式以及表格的识别能力上全面超越了现有的开源及闭源解决方案。值得一提的是，其模型架构与前代 1.5 版本保持一致，这意味着用户可以零成本、即插即用地进行迁移和升级。

PaddleOCR-VL-1.6 的核心能力概览

多语言文本辨识：能够精准识别 109 种语言的通用文本，在 OmniDocBench v1.6 的文本识别子项中斩获 96.8 分的高分。
数学公式解析：精通数学公式的 LaTeX 格式识别，得分高达 97.5，表现优于 GLM-OCR 和 MinerU 等模型。
复杂表格解析：能够深入理解并解析包含合并单元格和多层表头的复杂表格结构，TEDS 得分为 94.8。
古籍文献识别：针对中文古籍和竖排文字的识别能力得到了显著的提升。
罕见字辨识：对于生僻汉字的识别能力得到了显著加强。
印章信息提取：能够准确提取公章或印章中的文字信息并进行定位。
图表数据洞察：可以将饼图、折线图等 11 类图表解析成结构化的数据。
自然场景文本检测：具备在自然场景下精准检测文字的能力（Spotting）。
结构化数据输出：支持将解析结果导出为 Markdown、JSON、DOCX 等多种常用格式。
跨页表格整合：能够自动识别并无缝合并跨越多个页面的表格。

PaddleOCR-VL-1.6 的技术精髓

两阶段解耦的智能架构：该模型采用了“版面分析+VLM识别”的两阶段设计。第一阶段，PP-DocLayoutV3 负责检测文档中的 25 类元素，并确定其阅读顺序和坐标。随后，第二阶段的 0.9B 参数 VLM 模型对每个检测到的元素进行逐一识别。其 VLM 内部集成了 NaViT 动态分辨率视觉编码器，能够自适应地处理不同尺寸的图像，并结合 ERNIE-4.5-0.3B 语言模型生成结构化输出，有效避免了固定分辨率带来的信息丢失问题。
数据驱动下的零架构改动升级：1.6 版本在模型结构上与 1.5 版本保持完全一致，其性能的飞跃主要归功于数据和训练策略的优化。开发团队深入分析了 1.5 版本在 OmniDocBench 各子项上的不足之处，并针对古籍、生僻字、印章、复杂表格等场景进行了定向的数据增强。
区域感知的数据增强策略：为了弥补薄弱环节，引入了先进的 CV 模拟失真技术。在公式和文本等训练数据中，模拟了扫描、倾斜、光照变化、屏幕拍摄等真实的物理畸变。同时，将文本发现任务的最大分辨率提升至 2048×28×28 像素，并注入了海量的印章和古籍专项数据，显著增强了模型在真实场景下的鲁棒性。
渐进式三阶段训练流程：模型采用了“预训练→SFT→强化学习”的渐进式训练方案。预训练数据集从原有的 2900 万图像-文本对扩充至 4600 万。SFT（Supervised Fine-Tuning）阶段，在原有的 OCR、表格、公式识别任务基础上，新增了印章识别和文本发现任务。最后，通过 GRPO（Proximal Policy Optimization）强化学习进一步优化输出质量，实现了多任务的统一处理。

如何便捷地使用 PaddleOCR-VL-1.6

本地安装（Python）：首先，请确保已安装 paddlepaddle-gpu==3.2.1（支持 CUDA 12.6）。然后，执行 pip install -U "paddleocr[doc-parser]" 命令即可完成环境配置，之后便可直接使用。
命令行工具：安装完成后，您可以通过简单的命令行指令进行文档解析。输入 paddleocr doc_parser -i your_document.png 用于单张图片处理，或 paddleocr doc_parser -i document.pdf 进行 PDF 文件的批量处理，解析结果将直接输出。
Python API 调用：在 Python 代码中，您可以导入 PaddleOCRVL 类来初始化 pipeline。通过调用 predict() 方法并传入图片路径，即可获得解析结果。您可以通过 print() 查看结果，或使用 save_to_json()、save_to_markdown() 等方法将其保存为结构化文件。
Docker 部署（生产环境）：对于生产环境的部署，建议拉取官方镜像 ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-vl:latest-nvidia-gpu。启动容器后，即可在容器内部直接运行模型，非常适合服务器端的部署需求。
推理服务化部署：如需构建高并发的 API 服务，可执行 paddleocr genai_server 命令，一键启动 HTTP 服务。该服务支持 vLLM、SGLang、FastDeploy、Transformers、llama.cpp 等多种后端，能够满足大规模 API 调用场景。

PaddleOCR-VL-1.6 的突出优势

卓越的 SOTA 精度：在 OmniDocBench v1.6 上达到 96.33% 的领先水平，在文本、公式、表格识别等多个维度均位居榜首。
极致轻量化的模型：仅 0.9B 的参数量，远小于 Qwen3-VL-235B、GPT-5.2 等通用大模型，部署和运行成本极低。
零成本的迁移体验：与 1.5 版本保持一致的架构，只需替换模型权重即可实现无缝升级。
真实场景下的强大鲁棒性：在扫描、扭曲、屏幕拍摄、光照变化、倾斜等五大真实场景下均刷新了 SOTA 记录。
广泛的硬件兼容性：支持 NVIDIA GPU（包括 Blackwell 系列）、Apple Silicon、昆仑芯、昇腾、AMD、Intel 等多种硬件平台。

PaddleOCR-VL-1.6 的项目资源链接

GitHub 官方仓库：https://github.com/PaddlePaddle/PaddleOCR
HuggingFace 模型库：https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

PaddleOCR-VL-1.6 与同类竞品的对比分析

对比维度	PaddleOCR-VL-1.6	GLM-OCR	MinerU 2.5
开发方	百度飞桨	智谱 AI	上海 AI Lab / 清华
参数规模	0.9B	0.9B	1.2B
OmniDocBench v1.6	96.33%	95.22%	95.75%
文本识别	96.8	94.0	–
公式识别	97.5	96.5	–
表格识别 (TEDS)	94.8	85.2	88.4
真实场景鲁棒性	✅ SOTA	⚠️ 基础	⚠️ 基础
古籍/生僻字	✅ 显著增强	✅ 支持	⚠️ 一般
印章识别	✅ 增强	✅ 支持	❌ 未提及
部署成本	极低	极低	中等
开源协议	开源免费	开源免费	开源免费

PaddleOCR-VL-1.6 的广泛应用领域

文档数字化转型：可将纸质档案、书籍、论文等扫描件高效转换为 Markdown 或 JSON 等结构化电子文档，并支持批量处理。
企业办公自动化：能够自动提取合同、发票、报表、审批单等关键信息，方便对接 ERP 或 OA 系统，实现流程自动化。
教育与科研辅助：能够识别学术论文中的复杂公式（支持 LaTeX 输出）和表格数据，极大地便利了文献整理与知识提取工作。
金融服务效率提升：能够解析银行票据、财务报表、对账单等，实现数据自动录入和合规性审计。
医疗健康信息化：能够结构化录入病历、检查报告、处方单等信息，为医院信息化系统的对接提供有力支持。

阅读原文