Chronicles-OCR – 腾讯联合高校等推出的视觉感知评测基准
Chronicles-OCR:解码汉字千年演变,赋能视觉大模型新篇章
Chronicles-OCR,一个由腾讯混元牵头,携手中国科学院信息工程研究所、安阳师范学院、南开大学以及故宫博物院等重量级机构联合打造的创新性评测基准,正以其前所未有的广度和深度,重新定义我们对汉字跨时间视觉感知的理解。它不仅是业界首个全面覆盖汉字“七体之变”完整演化轨迹的评测体系,更以其海量高质量图像和精细化标注,为评估视觉大语言模型(VLLMs)在数千年汉字形态演变面前的感知鲁棒性提供了坚实基础。该基准囊括了从殷商时期的甲骨文,到金文、篆书、隶书,再到成熟的楷书、行书、草书,总计 2,800 张精心挑选的图像,为模型的研究与发展开辟了新的维度。
Chronicles-OCR 的核心亮点
- 七体兼备,贯穿古今:Chronicles-OCR 的一大突出优势在于其对中国汉字七大主要字体——甲骨文、金文、篆书、隶书、楷书、行书、草书——的全面收录。这使得评测体系能够跨越数千年的历史长河,从最古老的殷商时期一直延伸至近现代,构建起一个无与伦比的跨时间评测框架。
- 智能适配,标注新范式:为了应对不同历史时期字体形态的巨大差异,Chronicles-OCR 创新性地采用了“阶段自适应标注范式”。对于古文字(如甲骨文、金文、篆书),它提供了单字级别的边界框定位和现代汉字映射标注;而对于发展成熟的字体(如隶书、楷书、行书、草书),则侧重于序列级别的布局理解标注。这种精细化的处理方式,极大地提升了评测的准确性和有效性。
- 四大任务,全方位评估:Chronicles-OCR 设计了四大核心评测任务,旨在对模型的视觉感知能力进行全方位的检测。这些任务包括:跨越时空的字符定位、对古文字的细粒度识别、古文本的结构化解析,以及字体的分类能力。通过这些任务,可以深入了解模型在处理不同历史时期汉字时的表现。
- 视觉指代,解耦评估:利用彩色框标记图像中的目标字符,Chronicles-OCR 能够让模型进行精准识别,从而实现对字符破译能力与空间定位能力的分离评估。这种“视觉指代机制”有助于更清晰地诊断模型在特定环节上的优势与劣势。
- 专家级标注,品质保证:数据集的标注工作由古文字学博士、研究生以及相关领域的资深专家团队精心完成,并经过多层级的交叉审验。这种高标准的标注流程,确保了字体分类、边界框定位和字符转录的极高保真度,为研究提供了可靠的数据基础。
- 权威数据,源远流长:Chronicles-OCR 的数据来源可谓星光熠熠。甲骨文图像来自安阳师范学院甲骨文信息处理重点实验室的宝贵收藏;金文和篆书则由专业的古文字学团队整理;而隶书、楷书、行书、草书则取自故宫博物院珍贵的文物手写体识别测试数据集。这些权威的数据源为基准的严谨性提供了有力支撑。
- 洞察模型瓶颈,指明优化方向:Chronicles-OCR 的系统性评估,能够深入揭示视觉大语言模型在面对数千年汉字形态演变时的感知能力边界。它能够精准地指出现代文档解析能力向历史书写系统泛化过程中存在的关键瓶颈,为模型未来的改进和优化提供了明确的方向。
如何驾驭 Chronicles-OCR
- 踏足开源世界:首先,请前往 GitHub 上的 Chronicles-OCR 开源仓库(https://github.com/VirtualLUOUCAS/Chronicles-OCR)。这里汇集了数据集、研究论文以及评测代码,是您开始探索的起点。
- 拥抱数据集:下载包含 2,800 张高质量图像的完整数据集。您会发现,甲骨文、金文、篆书、隶书、楷书、行书、草书这七大字体各有 400 张图像,并附有 JSON 或 XML 格式的详细标注文件。
- 理解数据脉络:仔细研读阶段自适应标注规范。对于古文字阶段(甲骨/金文/篆书),标注形式为单字边界框坐标与现代汉字映射;对于成熟字体阶段(隶/楷/行/草),则为序列文本布局及阅读顺序的标注。
- 选择您的战场:根据您的研究目标,从四大评测任务中选择最适合您的任务:跨时期字符定位、细粒度古文字识别、古文本解析、字体分类。
- 部署待测模型:准备您希望进行评测的视觉大语言模型(VLLM)。请确保您的模型具备处理图像输入和生成文本输出的能力。
- 启动模型推理:将数据集中的图像输入待测模型,并根据您选择的任务要求,输出相应的预测结果,例如边界框坐标、现代汉字转录或字体类别等。
- 运行评测利器:利用开源仓库提供的官方评估代码,将模型的输出结果与标准标注进行精确比对。系统将自动计算各项任务的评估指标,如定位精度、NED 编辑距离、分类准确率等。
- 解读评估报告:对照基准报告中提供的模型表现数据,深入诊断您的模型在古文字感知、历史文本布局理解以及字体演化认知方面的能力边界和潜在缺陷。
- 引用与贡献:在您的相关研究论文中,请务必引用 arXiv:2605.11960v1。同时,您可以通过 GitHub Issues 渠道向作者团队反馈您在使用过程中遇到的问题或提出的改进建议,共同推动 Chronices-OCR 的发展。
Chronicles-OCR 的独特优势
- 开创性跨时间评测体系:Chronicles-OCR 独树一帜,是首个系统性地覆盖汉字“七体之变”——从甲骨文到草书——完整演化轨迹的视觉感知评测基准。它填补了从殷商时期到近现代汉字形态演变评估的空白。
- 顶级学术机构的联合背书:由腾讯混元联合中国科学院信息工程研究所、安阳师范学院甲骨文信息处理重点实验室、南开大学及故宫博物院等一流学术机构共同推出,确保了数据的权威性和标注的专业性。
- 革新性的阶段自适应标注范式:针对不同历史阶段字体形态的剧烈变化,Chronicles-OCR 创新性地采用了差异化的标注策略。它实现了古文字阶段的单字级定位+映射,以及成熟字体阶段的序列级布局理解,使得评估维度更加精准。
- 深度揭示模型能力边界:Chronicles-OCR 不仅仅提供了评测数据,更重要的是,它系统性地揭示了当前主流视觉大语言模型在古文字细粒度空间定位和语义破译上的“灾难性失败”,为模型优化提供了清晰的方向。
- 权威数据与专家级标注的融合:数据集的来源极为权威,包括安阳师范学院的专业实验室、古文字学博士团队以及故宫博物院的珍贵文物数据集。多层级交叉的专家标注,保证了数据的高保真度。
- 视觉指代解耦的精妙评估机制:通过彩色框的视觉指代,Chronicles-OCR 将字符级别的破译能力与空间定位能力进行解耦评估,能够精准地诊断模型在具体环节上的短板。
- 完全开源,易于复现与拓展:Chronicles-OCR 的论文和数据集均已开源,这极大地便利了学术界的复现验证、对比评测以及进一步的研究拓展。
Chronicles-OCR 与同类竞品的比较
| 对比维度 | Chronicles-OCR | AncientDoc | ACCID |
|---|---|---|---|
| 发布机构 | 腾讯混元、中科院信工所、安阳师范学院、南开大学、故宫博物院 | 字节跳动、北京交通大学等 | 学术研究机构(论文未明确单一机构) |
| 数据集规模 | 2,800 张严格平衡图像,七体各 400 张 | 约 3,000 页古籍图像,来自 100+ 部古籍 | 2,892 字符类别图像,含部首级标注 |
| 覆盖内容 | 七大字体:甲骨文、金文、篆书、隶书、楷书、行书、草书 | 14 类古籍文档(经史子集、医学、天文历算、楚辞等) | 古代汉字图像(侧重部首结构) |
| 时间跨度 | 约三千年(殷商至近现代) | 战国秦汉至明清 | 古代汉字(未明确分期) |
| 评测任务 | 跨时期字符定位、细粒度古文字识别、古文本解析、字体分类 | 页面级 OCR、白话翻译、推理 QA、知识 QA、语言变体 QA | 零样本字符识别、部首识别 |
| 标注粒度 | 阶段自适应:古文字单字级边界框+现代汉字映射;成熟字体序列级布局 | 页面级文本、问答对、翻译对 | 字符级 + 部首级(含坐标、结构) |
| 目标模型 | 视觉大语言模型(VLLMs) | 视觉语言模型(VLMs) | 零样本 OCR / 深度学习模型 |
| 核心创新 | 首创跨时间汉字演化评测、阶段自适应标注范式、视觉指代解耦评估 | 首个古籍多任务评测基准,从 OCR 延伸至知识推理 | 首创部首级精细标注,支持零样本学习 |
Chronicles-OCR 的广阔应用前景
- 古文字智能识别的加速器:Chronicles-OCR 为甲骨文、金文等尚未完全破译的古文字提供了强大的自动化识别和专家校验工具,有望显著降低古文字学研究的门槛。
- 古籍数字化工程的有力支撑:该基准能够对历代书法、碑帖、文献进行高精度的 OCR 和结构化解析,极大地推动文化遗产的数字化存档与传播。
- 字体演化研究的创新平台:通过 AI 模型对汉字从甲骨文到楷书的形态演变规律进行深入分析,Chronicles-OCR 为文字学、历史学等跨学科研究提供了新的视角和工具。
- VLLM 能力评测的标杆:作为一套标准化的评测基准,Chronicles-OCR 可以有效评测和对比不同视觉大语言模型在处理跨时间汉字感知能力方面的表现和鲁棒性。
- 文物信息提取的得力助手:能够从青铜器铭文、竹简、帛书等珍贵文物图像中提取文字信息,为考古研究和文物鉴定提供有力支持。
- 教育科普的生动载体:Chronicles-OCR 可用于汉字文化教学,通过古文字识别演示和字体演变可视化,生动地增强公众对汉字历史演变过程的认知。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



粤公网安备 44011502001135号