FireRed-OCR

FireRed-OCR – 小红书开源的轻量级文档结构解析视觉语言模型

FireRed-OCR，一款出自小红书团队之手的轻量级文档结构解析视觉语言模型，以其仅 20 亿参数的精悍身躯，在权威的 OmniDocBench v1.5 评测中取得了令人瞩目的 92.94% 综合得分。这一成就非同小可，它不仅大幅超越了 GPT-5.2、Gemini-3.0 Pro 以及 Qwen3-VL-235B 等动辄百亿乃至千亿参数的巨头模型，更实现了“小巧胜巨鳄”的突破性进展。

FireRed-OCR 的核心魅力何在？

FireRed-OCR 是一款由小红书团队匠心打造的开源轻量级文档结构解析视觉语言模型。它以其仅 2B 的参数规模，在 OmniDocBench v1.5 这项权威评测中，荣获了高达 92.94% 的综合评分。此番表现，不仅远远甩开了 GPT-5.2、Gemini-3.0 Pro 和 Qwen3-VL-235B 等巨型模型，更堪称是“以小博大”的典范之作。该模型建立在 Qwen3-VL-2B-Instruct 的坚实架构之上，并巧妙运用了三阶段渐进式训练策略。FireRed-OCR 的设计初衷，便是为了攻克文档解析领域中普遍存在的“结构幻觉”难题，它能够精准捕捉复杂的表格、精密的数学公式以及层级分明的标题等信息，并将其流畅地转化为标准的 Markdown 格式。

FireRed-OCR 的核心功能亮点

精湛的表格解析能力：无论是杂乱无章的 PDF 文件还是模糊不清的扫描文档，FireRed-OCR 都能精确识别并复原表格的严谨结构，确保行与列的对应关系丝毫不差，彻底告别了传统 OCR 技术在表格处理上常见的混乱局面。
卓越的数学公式识别：文档中的数学公式，无论多么复杂，都能被 FireRed-OCR 准确无误地捕捉，并转化为标准的 LaTeX 或 Markdown 格式，保证了公式的语法严谨性和可读性。
智能的层级结构还原：模型能够敏锐地识别文档中标题的层级（从 H1 到 H6）、段落的缩进关系以及列表符号的顺序，从而生成符合规范的 Markdown 层级结构。
多格式文档的无缝转换：支持将 PDF、扫描图像、学术论文、财务报表等多种格式的文档，一键转换为结构化的 Markdown 文本。
强大的“抗幻觉”能力：通过 GRPO 强化学习的精细调优，FireRed-OCR 显著减少了内容编造、行序错乱、层级混乱等文档解析过程中常见的错误，确保了输出的准确性。
广泛的场景适应性：该模型可广泛应用于财务报告的数字化转型、学术论文的深度解析、合同文档的结构化整理，以及书籍内容的提取等专业领域。
轻量化部署的优势：仅 2B 的参数规模，使其能够轻松实现本地部署和 API 调用，大幅降低了算力成本，为中小型企业和个人开发者提供了极大的便利。

FireRed-OCR 的技术精髓剖析

坚实的基础架构：FireRed-OCR 的根基，是强大的 Qwen3-VL-2B-Instruct 多模态大模型，这使得它天然具备了卓越的视觉理解和文本生成能力。
三阶段渐进式训练策略：
- 第一阶段（多任务预对齐）：模型同时学习区域检测、区域识别以及布局到 Markdown 的转换这三大任务，旨在为其构建对文档空间布局的深刻理解。
- 第二阶段（专项 SFT）：通过在海量高质量、标准化的 Markdown 数据集上进行监督式微调，确保模型输出的逻辑严谨性和层级表达的精准性。
- 第三阶段（格式约束 GRPO）：引入 Group Relative Policy Optimization（GRPO）强化学习算法，并通过精巧的格式奖励机制，进一步打磨输出质量。
四大核心奖励机制：
- 公式语法有效性奖励：确保输出的数学公式严格遵循 LaTeX 语法规范。
- 表格完整性奖励：保障表格的行列结构能够完整对应，不出现错漏。
- 层级闭合性奖励：验证 Markdown 标题层级标签的正确闭合，维持结构的清晰。
- 文本准确性奖励：致力于提升文字识别的精度和内容的保真度。
结构幻觉的有效抑制：针对文档解析中常见的表格行序紊乱、公式凭空捏造、层级逻辑混乱等问题，FireRed-OCR 结合了格式约束和强化学习的联合优化，显著降低了幻觉发生的概率。
端到端的优化流程：模型能够直接从视觉输入生成结构化的 Markdown 文本，省去了传统 OCR 技术中繁琐的多阶段流水线（如检测、识别、版面分析、格式化），从而有效减少了误差的累积。

FireRed-OCR 的项目代码仓

GitHub 仓库链接：https://github.com/FireRedTeam/FireRed-OCR

FireRed-OCR 的广泛应用场景

财务报告的智能化处理：能够精准提取上市公司年报、审计报告中的复杂表格和关键财务数据，并将其转化为结构化的 Markdown 格式，极大地便利了财务分析和数据入库工作。
学术论文的深度挖掘：能够识别研究论文中的数学公式、图表标题以及参考文献的层级结构，生成符合标准学术格式的文本，为文献管理和知识的提取提供了有力支持。
合同文档的规范化管理：将扫描版的合同、法律文件转化为可编辑的结构化文本，准确还原条款的层级和关键信息，显著提升了法务文档的处理效率。
书籍杂志的数字化转型：能够处理扫描版的书籍、期刊杂志，精确还原目录层级和正文排版，快速构建起可搜索的数字图书馆。
教育资料的系统整理：能够解析教材、试卷、讲义中的公式和表格内容，并将其转换为适合在线学习的结构化格式，为教育平台的建设提供了优质内容支持。
档案资料的数字化存档：帮助企业和机构将历史纸质档案、手写笔记转化为结构化的电子文档，实现了档案的永久保存和智能检索。

阅读原文