Qianfan-OCR

Qianfan-OCR – 百度千帆推出的端到端文档智能模型

百度千帆重磅推出 Qianfan-OCR，这是一款集文档解析、版面分析、文字识别与语义理解于一体的端到端智能文档处理模型。该模型基于先进的 4B 参数视觉语言架构，将复杂的文档处理流程化繁为简，实现了前所未有的高效与智能。

Qianfan-OCR 闪耀登场

Qianfan-OCR 并非传统的 OCR 工具，而是百度千帆精心打造的一款性文档智能解决方案。它巧妙地融合了 4B 参数的强大视觉语言能力，能够一站式完成文档图像的解析、版面的深刻理解、文字的精准识别以及内容的语义洞察。在权威的 OmniDocBench v1.5 评测中，Qianfan-OCR 以令人瞩目的 93.12 分荣登端到端模型榜首。其核心创新在于引入了 Layout-as-Thought 机制，能够显式地对文档的版面结构进行建模，从而轻松驾驭复杂的表格与图表理解任务。更令人振奋的是，Qianfan-OCR 已实现开源，并且其部署效率极高，单张 A100 显卡即可实现流畅运行。

Qianfan-OCR 的核心能力概览

无缝文档图像解析：直接处理扫描件或各类图片，无需繁琐的预处理步骤，即可高效提取结构化的文本信息。
智能版面洞察：自动识别文档中的各类元素，如标题、段落、表格、图表等，并精准把握它们之间的空间布局关系。
精准文字转换：无论是印刷体还是手写体文字，都能被准确识别并转换为可编辑的文本格式。
关键信息自动抓取：从海量复杂文档中，精准定位并提取出用户所需的特定字段，例如日期、金额、人名等。
图表深度推理：不仅能识别图表，更能理解柱状图、折线图等可视化内容所蕴含的数值含义与发展趋势。
多样化输出支持：可根据用户需求，灵活生成 Markdown、JSON、HTML 等多种结构化的数据格式。

Qianfan-OCR 的技术精髓

一体化端到端架构：Qianfan-OCR 摒弃了传统的“检测-识别-理解”多阶段模式，采用统一的视觉语言架构，实现端到端处理。模型直接将文档图像映射为结构化输出，有效避免了因多阶段处理带来的误差累积和视觉信息损失。
革新性 Layout-as-Thought 机制：为了解决端到端模型在版面建模上的不足，研究团队独创了 Layout-as-Thought 机制。在生成最终结果之前，模型会通过特定的 <think> token 触发一个结构思考阶段，首先输出元素的具置、类型以及阅读顺序等版面信息。基于这些先验知识，模型能够更精准地完成内容解析，在同一框架内实现结构感知与语义理解的双重能力。

Qianfan-OCR 的关键亮点与使用指南

模型规模：基于强大的 4B 参数视觉语言架构。
评测表现：在 OmniDocBench v1.5 评测中，端到端模型类别中高居榜首，得分 93.12 分；在 KIE 榜单上，表现超越了 Gemini 3-Pro。
核心技术突破：独创的 Layout-as-Thought 机制，赋予了模型强大的版面结构显式建模能力。
高效部署性能：在单张 A100 GPU 上，经过 W8A8 量化后，可实现高达 1.024 页/秒的处理吞吐量。
开放共享：模型权重已在 HuggingFace 上线，并提供配套的 Skills 工具链。
硬件要求：建议使用 NVIDIA A100 或同等级别的 GPU 进行推理部署。
软件环境：需要安装 vLLM 推理框架，并支持 W8A8 量化以有效降低显存占用。
接入方式多样：可通过百度千帆平台进行在线调用，或基于开源权重进行私有化部署。
输入支持：能够处理常见的文档图像格式，如 PDF、PNG、JPG 等。
输出格式灵活：可根据实际需求配置为 Markdown、JSON、HTML 等结构化输出。

Qianfan-OCR 的卓越之处

前沿架构设计：采用先进的端到端统一视觉语言架构，革新了传统的 OCR 处理流程，有效避免了模块间误差累积，并显著简化了系统部署与运维的复杂性。
深度版面理解能力：独创的 Layout-as-Thought 机制，通过 <think> token 显式地对文档元素的空间位置、类型及阅读顺序进行建模，极大地提升了在复杂排版场景下的解析准确性。
顶尖的性能表现：在 OmniDocBench v1.5 评测中，以 93.12 分位列端到端模型第一，并在图表理解等 6 项关键任务中，取得了 5 项最佳成绩。
卓越的处理效率：单卡 A100 GPU 配合 W8A8 量化，即可实现每秒 1.024 页的处理速度，显著节省了 CPU 检测和多模型异构编排所带来的成本。
即插即用的便捷性：支持百度千帆平台的在线调用，以及 HuggingFace 开源权重的私有化部署，同时提供完善的 Skills 工具链和多格式输出能力，满足各类应用需求。

轻松上手 Qianfan-OCR

在线体验：访问百度千帆平台控制台，在模型中心选择 Qianfan-OCR 内置模型，创建应用并获取 API Key。随后，即可通过标准的 HTTP 接口上传文档图像，即时获得结构化的解析结果。
本地部署：从 HuggingFace 下载开源模型权重，安装 vLLM 推理框架，并配置 W8A8 量化参数。在配备 A100 GPU 的服务器上启动模型服务，即可通过本地 API 实现离线调用。
二次开发：克隆 GitHub 官方 Skills 仓库，利用提供的文档智能工具包进行二次开发。将 OCR 能力无缝集成到现有业务系统，实现自定义输出格式和批量文档处理流程。

Qianfan-OCR 的项目入口

GitHub 仓库：https://github.com/baidubce/Qianfan-VL
HuggingFace 模型库：https://huggingface.co/baidu/Qianfan-OCR
技术论文：https://arxiv.org/pdf/2603.13398

Qianfan-OCR 与同类竞品的深度对比

对比维度	Qianfan-OCR	GPT-4o	Gemini 3-Pro
架构设计	端到端统一视觉语言架构（4B参数）	通用多模态大模型	通用多模态大模型
OmniDocBench v1.5	93.12分（端到端第一）	未公开专项评测	未公开专项评测
版面分析能力	Layout-as-Thought显式建模	隐式理解，无结构化输出	隐式理解，无结构化输出
图表理解	6项任务5项最佳	通用推理能力强	通用推理能力强
部署成本	单卡A100即可运行	需调用云端API	需调用云端API
开源程度	模型权重+论文+Skills全开源	闭源商用API	闭源商用API
输出格式	Markdown/JSON/HTML结构化输出	自然语言描述	自然语言描述