dots.ocr – 小红书hi lab开源的多语言文档解析模型
dots.ocr 是小红书 hi lab 推出的一款开源多语言文档布局解析模型,基于 17 亿参数的视觉语言模型(VLM),集成了布局检测与内容识别功能,并能保证良好的阅读顺序。该模型性能卓越,推理速度快,且能通过调整输入提示词灵活切换任务,适用于多种文档解析场景。
### 深入解析 dots.ocr
dots.ocr 是由小红书 hi lab 倾力打造的开源多语言文档解析模型。它并非简单地进行文本识别,而是基于强大的视觉语言模型(VLM)构建,该模型拥有 17 亿参数,能够同时处理文档的布局检测和内容识别,并确保输出结果的阅读顺序符合人类习惯。 尽管模型规模适中,dots.ocr 的表现却十分出色,在 OmniDocBench 等基准测试中成绩斐然,甚至在公式识别方面能与 Doubao-1.5 和 gemini2.5-pro 等更大型模型相媲美,尤其在小语种文档解析方面展现出显著优势。 此外,dots.ocr 架构简洁高效,仅需更改输入提示词即可切换不同任务,推理速度快,能够满足各种文档解析需求。
### dots.ocr 的核心功能
* **多语言文档解析**:支持多种语言,可以解析文本、表格、公式、图片等多种文档元素。
* **一体化布局检测与内容识别**:在一个视觉语言模型中同时完成布局检测和内容识别,并保持内容的阅读顺序。
* **高速推理**:基于17亿参数的视觉语言模型,推理速度快,适合处理大规模文档。
* **任务灵活切换**:通过更改输入提示词,可以轻松切换任务,例如布局检测、内容识别等。
* **多样化输出格式**:支持 JSON、Markdown 等多种输出格式,并提供布局可视化图像。
### 了解 dots.ocr 的技术
dots.ocr 的强大性能得益于其独特的技术架构:
* **视觉语言模型(VLM)**: 核心在于 17 亿参数的视觉语言模型,该模型巧妙地融合了视觉编码器和语言模型的优势。 视觉编码器负责从文档图像中提取视觉特征,而语言模型则负责理解和生成文本内容。
* **三阶段训练流程**:
* **视觉编码器预训练**: 从头开始训练一个 12 亿参数的视觉编码器,使用大规模图文对数据集。
* **视觉编码器持续预训练**: 引入高分辨率输入支持,并与语言模型对齐,进一步增强视觉特征提取能力。
* **VLM 训练**: 利用纯 OCR 数据集进行训练,优化模型在文档解析任务上的表现。
* **监督微调(SFT)**: 采用多样化的数据集进行监督微调,包括人工标注数据、合成数据和开源数据集。 通过迭代式数据飞轮机制,持续优化模型性能,提升数据质量和多样性。 此外,dots.ocr 采用“大模型排序+规则后验”的方法修正阅读顺序,确保布局元素的顺序符合人类阅读习惯。
* **任务切换机制**: 通过输入提示词(prompt)来指定模型的任务,例如布局检测、内容识别、公式解析等。 提示词可以引导模型生成相应的输出,从而灵活地应对不同的文档解析需求。
### 探索 dots.ocr 的世界
* **项目地址**:
* GitHub 仓库: https://github.com/rednote-hilab/dots.ocr
* HuggingFace 模型库: https://huggingface.co/rednote-hilab/dots.ocr
* 在线体验 Demo: https://dotsocr.xiaohongshu.com/
### dots.ocr 的应用领域
* **文档数字化与内容提取**: 将纸质文档或 PDF 文件转换为可编辑的数字格式,精准提取文本、表格、公式等结构化内容,助力文档电子化管理。
* **学术研究与出版**: 快速解析学术论文中的公式、图表和文本,辅助研究人员高效获取关键信息,加速学术研究和知识传播。
* **金融与财务文档处理**: 自动提取财务报告中的数据和表格,支持金融数据分析和合规检查,提升金融业务处理效率。
* **教育领域**: 解析教材、试卷等教育资料,提取题目和答案,辅助教学内容数字化和在线化,支持教育信息化发展。
* **企业内部文档管理**: 支持处理企业内部的会议记录、项目报告等文档,提取关键信息,优化企业运营效率。
### 常见问题解答
**Q: dots.ocr 支持哪些输出格式?**
A: dots.ocr 支持多种输出格式,包括 JSON 和 Markdown,并且还提供布局可视化图像。
**Q: dots.ocr 的推理速度如何?**
A: dots.ocr 基于17亿参数的视觉语言模型,推理速度快,适合大规模文档处理。
**Q: 如何切换 dots.ocr 的任务?**
A: 通过更改输入提示词,可以轻松切换 dots.ocr 的任务,例如布局检测、内容识别等。