MOCR – 小红书联合华中科技推出的多模态文档解析模型
MOCR:文档解析新范式,让“一切皆可解析”
在信息的时代,文档的数字化和智能化处理显得尤为重要。由华中科技大学与小红书hi lab联手打造的MOCR(Multimodal OCR)模型,以其30亿的精巧参数,在文档解析和图形重建领域掀起了一场。它打破了传统OCR技术仅限于文字识别的瓶颈,开创了“解析一切”的全新局面。
MOCR的独特之处
MOCR不仅仅是一个文字识别工具,更是一个强大的文档理解与重构引擎。它能够精准识别并解析文档中的文字、表格、公式、流程图等所有视觉元素,并能将统计图表、科学插图、UI布局等图形内容转化为可编辑的SVG代码。这意味着,过去那些难以处理的复杂文档元素,如今都能被转化为可编辑、可复用的数字资产。在众多开源模型中,MOCR在文档解析能力上拔得头筹,其图形重建能力更是超越了业界知名的Gemini 3 Pro,为文档AI领域带来了颠覆性的改变。
MOCR的核心能力概览
- 全面解析文档要素:MOCR能够识别并结构化地提取文档中的所有组成部分,包括文字、表格、公式、图表等,并能忠实地还原其阅读顺序。
- 图形化为SVG代码:模型可以将复杂的图表和插图转换成可编辑的SVG格式,实现像素级到矢量级的飞跃。
- 多源输入兼容:无论是PDF文件、网页截图、扫描件,还是手机拍摄的图像,MOCR都能游刃有余地进行解析。
- 通用视觉理解:除了文档解析,MOCR还具备强大的通用视觉理解能力,能够进行视觉问答、视觉定位和图像描述等任务。
- 灵活的双模型配置:为了满足不同应用场景的需求,MOCR提供了均衡性能的dots.mocr版本和专注于SVG优化的dots.mocr-svg版本。
MOCR的关键亮点与使用门槛
- 开发者背景:华中科技大学与小红书hi lab的强强联合。
- 模型规模:30亿参数,由12亿视觉编码器和15亿语言解码器构成。
- 模型版本:dots.mocr(均衡版)与dots.mocr-svg(SVG增强版)。
- 技术突破:将图形元素转化为可编辑SVG代码,实现“解析一切”的创新模式。
- 性能标杆:在开源文档解析领域位列第一,图形重建能力优于Gemini 3 Pro。
- 硬件要求:推荐使用支持CUDA的NVIDIA显卡以加速推理过程。
- 内存需求:显存需求与输入文档的分辨率成正比,高分辨率文档需要更大的显存支持。
MOCR的突出优势
- 高效低耗,性能卓越:仅30亿参数的MOCR,在性能上却能与许多大型模型媲美,在文档解析领域稳居开源榜首,图形重建能力更是超越了Gemini 3 Pro。
- 全方位解析,不留死角:MOCR打破了传统OCR的局限,能够将文字、图表、公式等所有视觉元素进行统一的结构化解析。
- 图形资产的可编辑化:将图形转换为SVG代码,实现了无损重建和二次编辑,告别了简单的像素级复制。
- 数据引擎的革新:通过支持多源数据管道构建,有效解决了图形监督信号稀缺的难题。
- 评估体系的创新:引入OCR Arena框架,利用强大的视觉语言模型进行更可靠的评估对比。
如何驾驭MOCR
- 环境配置:建议使用Python 3.12创建虚拟环境,然后克隆项目仓库并安装所需依赖。
- 模型获取:通过运行提供的脚本下载模型权重,请注意模型保存路径不宜包含英文句点。
- 服务部署:利用vLLM框架部署模型服务,以实现GPU加速的推理。
- 文档处理:调用相应的脚本来处理图片或PDF文件,获取结构化的解析结果。
- 图形转换操作:使用专门的SVG转换脚本,将图表等视觉内容转化为可编辑的SVG代码。
- 结果查收:最终将获得包含边界框信息的JSON文件、Markdown格式文本以及可视化标注图。
MOCR的项目入口
- GitHub代码库:https://github.com/rednote-hilab/dots.mocr
- 技术深度解析:https://arxiv.org/pdf/2603.13032
- 在线体验平台:https://dotsocr.xiaohongshu.com/
MOCR与同类竞品之比较
| 维度 | MOCR | Gemini 3 Pro | PaddleOCR-VL |
|---|---|---|---|
| 开发方 | 华中科大×小红书 | 谷歌 | 百度 |
| 参数规模 | 3B | 未公开(规模巨大) | 0.9B |
| 开源状态 | 完全开源 | 闭源API | 开源 |
| 核心定位 | 文档全要素解析+图形重建 | 通用多模态大模型 | 传统文字识别 |
| 文档解析Elo | 1125(开源第一) | 1211(业界领先) | 920.5 |
| olmOCR-Bench | 83.9 | 未公开 | 80.0 |
| 图形处理能力 | 转换为SVG代码(可编辑) | 基础识别 | 不支持 |
| 部署方式 | vLLM/Transformers本地部署 | API调用 | 本地部署 |
| 核心优势 | 小巧高效,图形可编辑化 | 通用性强,生态完善 | 轻量快速,中文优化突出 |
MOCR的广泛应用场景
- 学术研究领域:高效解析论文PDF,提取复杂公式,重建各类图表,将扫描版文献转化为可编辑的LaTeX格式,助力科研复现。
- 金融财经领域:精准分析财务报表,提取关键数据表格,将PDF财报中的图表转化为Excel可用数据,助力投资决策。
- 法律政务领域:高效审查合同文本,数字化整理案件卷宗,识别证件信息,结构化提取多页合同的关键信息并保持格式完整。
- 教育出版领域:数字化教材内容,构建海量试题库,识别板书内容,将印刷教材中的复杂公式和图表转化为易于编辑的电子资源。
- 医疗健康领域:快速解析病历报告,提取检验结果,标注医学影像,处理包含化学分子式和医学示意图的复杂文档。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


粤公网安备 44011502001135号