Migician

Migician – 北交大联合清华、华中科大推出的多模态视觉定位模型

Migician是什么

Migician是由北京交通大学、华中科技大学和清华大学的研究团队联合开发的多模态大语言模型（MLLM），旨在应对形式的多图像定位（Multi-Image Grounding，MIG）任务。该模型基于大规模训练数据集MGrounding-630k，能够根据不同形式的查询（如文本描述、图像或两者结合）在多幅图像中识别并精确定位相关视觉区域。Migician通过两阶段训练方法，结合了多图像理解和单图像定位的能力，实现在复杂视觉场景中的高效应用，推动了多模态模型在细粒度视觉定位方面的进展。

Migician

Migician的主要功能

跨图像定位：在多幅图像中精确查找与查询相关的对象或区域，并提供其确切位置（如坐标框）。
灵活的输入形式：支持多种查询方式，包括文本、图像或两者的组合，比如“在图2中找出颜色不同但与图1相似的物体”。
多任务支持：能够处理多种与多图像相关的任务，包括对象跟踪、差异识别和共同对象定位等。
高效推理：利用端到端的模型设计，直接在多图像场景中进行推理，避免了传统方法中多步骤推理带来的复杂性和错误传播问题。

Migician的技术原理

端到端的多图像定位框架：采用端到端的架构直接处理多图像定位任务，省去任务分解为多个子任务的复杂性和效率问题，能够根据查询直接输出目标对象的位置。
大规模指令调优数据集（MGrounding-630k）：包含超过63万条多图像定位任务的数据，涵盖多种任务类型（如静态差异定位、共同对象定位和对象跟踪等），结合形式的指令，使模型学习到多样化的定位能力。
两阶段训练方法：
- - 第一阶段：在多种多图像任务上进行训练，学习基本的多图像理解和定位能力。
  - 第二阶段：通过形式的指令调优，提升模型在复杂查询下的定位能力，确保适应多样化任务。
多模态融合与推理：结合视觉和语言模态的信息，通过多模态融合实现对复杂查询的理解与定位，处理抽象的视觉语义信息，例如通过对比、相似性或功能关联来定位目标对象。
模型合并技术：采用模型合并技术，平均不同训练阶段的权重，以优化整体性能。