TokenFD

AI工具2周前更新 AI工具集
400 0 0

TokenFD – 上海交大联合美团推出的细粒度图文对齐基础模型

TokenFD是由上海交通大学与美团合作开发的一款先进的细粒度图文对齐基础模型,专注于文档理解任务。该模型通过Token级对齐技术实现了图像Token与语言Token在统一特征空间中的交互,特别适用于处理含有密集文字的图像,展示了卓越的性能。

TokenFD是什么

TokenFD是上海交通大学与美团联合研发的细粒度图文对齐基础模型,专注于文档理解领域。它通过Token级的对齐机制,使图像Token和语言Token能够在同一特征空间内共享,从而支持Token级的图文交互。在处理文字密集的图像时,TokenFD表现尤为出色。为训练此模型,团队创建了行业首个Token级图文数据集——TokenIT,包含有2000万张图像以及18亿个高质量的Token-Mask对,数据量远超其他现有模型。

TokenFD

TokenFD的主要功能

  • 细粒度图文对齐:TokenFD实现了图像Token与语言Token在同一特征空间的共享,支持Token级别的图文交互。
  • 提升多模态任务性能:TokenFD显著增强了多模态大模型在文档理解任务中的表现。例如,在文本分割任务中,Zero-Shot性能提升达18.78%;在文本理解任务中,提升幅度为1.48%;而在文本检索任务中,性能提升更是高达50.33%。
  • 基座适配与扩展:TokenFD可以直接替代其他多模态大模型的基座,而无需额外训练,便可提升各项评估基准。基于TokenFD作为视觉基础模型,进一步推出了TokenVL,开启了一种全新的多模态图文对齐预训练范式。

TokenFD的技术原理

  • BPE分词与像素级掩码标注:TokenFD首创了BPE分词与像素级掩码标注的结合技术。具体而言,模型将文本分割为BPE子词(例如“un-”、“-able”),并将每个子词(Token)精确对应到图像中的特定区域。这一过程使得模型能够更有效地理解图像中的文字信息,支持“图像即文字”的语义映射。
  • 数据集与模型训练:TokenFD依托自主研发的TokenIT数据集进行训练。该数据集包含了2000万张图像和18亿个高质量的Token-Mask对,涵盖了自然场景、文档及图表等多种文本图像类型。大规模的细粒度标注数据为模型提供了丰富的语义信息,使其在文档理解、文本分割等任务中表现出色。

TokenFD的项目地址

TokenFD的应用场景

  • 文档理解与处理:TokenFD能够高效处理包含密集文字的文档图像,例如表格、公式及其他复杂结构。
  • 图像安全审查:TokenFD适用于图像安全审查,通过细粒度的图文对齐,能够更准确地检测图像中的违规内容,如不当文字或符号。
  • 基于文字的图像检索:TokenFD突破了传统的基于文字识别的图文检索方式,支持通过特征空间直接进行相似度匹配,实现任意文字输入的图像内容查找。
  • 知识检索增强的大模型:TokenFD可以用于提升知识检索能力,通过细粒度的图文对齐,帮助大模型更好地理解和生成与图像相关的文本内容。
阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...