GLM-OCR

AI工具35分钟前更新 AI工具集
0 0 0

GLM-OCR – 智谱开源的轻量级多模态OCR模型

GLM-OCR:智谱AI的轻量级多模态OCR模型,以卓越性能引领行业新标杆

智谱AI重磅推出GLM-OCR,这款开源的轻量级多模态光学字符识别(OCR)模型,以其惊人的效率和准确性迅速占据了技术前沿。该模型参数量仅为0.9B,却在OmniDocBench V1.5基准测试中斩获94.6分的优异成绩,一举登顶SOTA(State-of-the-Art)。GLM-OCR的出现,标志着OCR技术在处理复杂文档场景方面迈出了坚实的一步。

核心技术亮点:架构的精妙融合

GLM-OCR的强大性能源于其创新的架构设计。它深度融合了GLM-V架构的优势,集成了智谱AI自研的CogViT视觉编码器以及一个精简的跨模态连接层。模型在训练过程中引入了多Token预测损失(MTP)机制,并通过强化学习进行持续优化,这使得它在面对手写体、复杂表格、代码文档、印章识别以及多语言混排等传统OCR模型的“痛点”时,展现出无与伦比的鲁棒性。

在技术实现上,GLM-OCR遵循经典的“编码器-解码器”模式。其视觉编码部分依赖于大规模图文对数据预训练的CogViT编码器,确保了对文档版面和文字细节的深刻理解。随后,轻量级的连接层利用SwiGLU激活机制和4倍下采样策略,高效地提炼并传递关键视觉信息到0.5B的GLM语言解码器。这种高效的信息流设计,不仅保证了识别的准确性,也极大地提升了推理速度,可达到每秒1.86页的处理能力。

在实际应用中,GLM-OCR采用“版面分析→并行识别”的两阶段范式。通过PP-DocLayout-V3进行精准的版面划分,随后并行执行OCR识别任务,最终能够直接输出HTML表格或结构化的JSON数据,极大地简化了下游系统的集成工作。

全能型功能矩阵:满足多样化需求

GLM-OCR提供的功能远超基础的文本提取,它致力于为用户提供一站式的文档智能解析方案:

  • 全场景文本捕获:无论是扫描件、截图还是照片,模型都能精准识别印刷体、手写笔记、专业代码乃至复杂印章,覆盖了广泛的文字形态。
  • 表格结构化解析:对于合并单元格、多层表头等复杂表格布局,GLM-OCR能够理解其内在逻辑,并直接转化为标准HTML代码,省去了繁琐的手动重建过程。
  • 关键信息抽取:在票据、证件和各类表格中,模型能智能定位并提取核心字段,并以标准的JSON格式输出,便于系统对接。
  • 专业内容识别:数学公式和程序代码等专业性强的元素,也能得到高精度的识别和还原。
  • 版式适应性强:轻松应对竖排文字、多语言混合排版等挑战,确保输出内容的完整性和准确性。

应用前景广阔:赋能多行业数字化转型

凭借其卓越的性能和灵活的部署特性(兼容vLLM、SGLang、Ollama等主流框架),GLM-OCR已成为多个商业场景的理想选择:

  • 企业办公效率提升:自动化处理合同、发票等日常文档,加速数字化归档流程。
  • 金融保险领域:快速准确地从各类单据中提取结构化数据,优化审核与结算流程。
  • 教育科研支持:精准识别学术论文中的公式和图表,为知识整理提供高质量的数据源。
  • RAG系统构建:为检索增强生成(RAG)应用提供清洗、结构化的文档数据,显著提升知识库的质量。

GLM-OCR不仅是技术上的突破,更是智谱AI对开源社区的积极贡献,其项目代码和模型已在GitHub及HuggingFace平台公开,并提供在线演示入口,供广大开发者和企业用户体验其强大能力。

阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...