MOCR

MOCR – 小红书联合华中科技推出的多模态文档解析模型

MOCR：文档解析新范式，让“一切皆可解析”

在信息的时代，文档的数字化和智能化处理显得尤为重要。由华中科技大学与小红书hi lab联手打造的MOCR（Multimodal OCR）模型，以其30亿的精巧参数，在文档解析和图形重建领域掀起了一场。它打破了传统OCR技术仅限于文字识别的瓶颈，开创了“解析一切”的全新局面。

MOCR的独特之处

MOCR不仅仅是一个文字识别工具，更是一个强大的文档理解与重构引擎。它能够精准识别并解析文档中的文字、表格、公式、流程图等所有视觉元素，并能将统计图表、科学插图、UI布局等图形内容转化为可编辑的SVG代码。这意味着，过去那些难以处理的复杂文档元素，如今都能被转化为可编辑、可复用的数字资产。在众多开源模型中，MOCR在文档解析能力上拔得头筹，其图形重建能力更是超越了业界知名的Gemini 3 Pro，为文档AI领域带来了颠覆性的改变。

MOCR的核心能力概览

全面解析文档要素：MOCR能够识别并结构化地提取文档中的所有组成部分，包括文字、表格、公式、图表等，并能忠实地还原其阅读顺序。
图形化为SVG代码：模型可以将复杂的图表和插图转换成可编辑的SVG格式，实现像素级到矢量级的飞跃。
多源输入兼容：无论是PDF文件、网页截图、扫描件，还是手机拍摄的图像，MOCR都能游刃有余地进行解析。
通用视觉理解：除了文档解析，MOCR还具备强大的通用视觉理解能力，能够进行视觉问答、视觉定位和图像描述等任务。
灵活的双模型配置：为了满足不同应用场景的需求，MOCR提供了均衡性能的dots.mocr版本和专注于SVG优化的dots.mocr-svg版本。

MOCR的关键亮点与使用门槛

开发者背景：华中科技大学与小红书hi lab的强强联合。
模型规模：30亿参数，由12亿视觉编码器和15亿语言解码器构成。
模型版本：dots.mocr（均衡版）与dots.mocr-svg（SVG增强版）。
技术突破：将图形元素转化为可编辑SVG代码，实现“解析一切”的创新模式。
性能标杆：在开源文档解析领域位列第一，图形重建能力优于Gemini 3 Pro。
硬件要求：推荐使用支持CUDA的NVIDIA显卡以加速推理过程。
内存需求：显存需求与输入文档的分辨率成正比，高分辨率文档需要更大的显存支持。

MOCR的突出优势

高效低耗，性能卓越：仅30亿参数的MOCR，在性能上却能与许多大型模型媲美，在文档解析领域稳居开源榜首，图形重建能力更是超越了Gemini 3 Pro。
全方位解析，不留死角：MOCR打破了传统OCR的局限，能够将文字、图表、公式等所有视觉元素进行统一的结构化解析。
图形资产的可编辑化：将图形转换为SVG代码，实现了无损重建和二次编辑，告别了简单的像素级复制。
数据引擎的革新：通过支持多源数据管道构建，有效解决了图形监督信号稀缺的难题。
评估体系的创新：引入OCR Arena框架，利用强大的视觉语言模型进行更可靠的评估对比。

如何驾驭MOCR

环境配置：建议使用Python 3.12创建虚拟环境，然后克隆项目仓库并安装所需依赖。
模型获取：通过运行提供的脚本下载模型权重，请注意模型保存路径不宜包含英文句点。
服务部署：利用vLLM框架部署模型服务，以实现GPU加速的推理。
文档处理：调用相应的脚本来处理图片或PDF文件，获取结构化的解析结果。
图形转换操作：使用专门的SVG转换脚本，将图表等视觉内容转化为可编辑的SVG代码。
结果查收：最终将获得包含边界框信息的JSON文件、Markdown格式文本以及可视化标注图。

MOCR的项目入口

GitHub代码库：https://github.com/rednote-hilab/dots.mocr
技术深度解析：https://arxiv.org/pdf/2603.13032
在线体验平台：https://dotsocr.xiaohongshu.com/

MOCR与同类竞品之比较

维度	MOCR	Gemini 3 Pro	PaddleOCR-VL
开发方	华中科大×小红书	谷歌	百度
参数规模	3B	未公开（规模巨大）	0.9B
开源状态	完全开源	闭源API	开源
核心定位	文档全要素解析+图形重建	通用多模态大模型	传统文字识别
文档解析Elo	1125（开源第一）	1211（业界领先）	920.5
olmOCR-Bench	83.9	未公开	80.0
图形处理能力	转换为SVG代码（可编辑）	基础识别	不支持
部署方式	vLLM/Transformers本地部署	API调用	本地部署
核心优势	小巧高效，图形可编辑化	通用性强，生态完善	轻量快速，中文优化突出