Finedefics

Finedefics – 北大团队推出的细粒度多模态大模型

Finedefics 是由北京大学彭宇新教授团队研发的一款先进的细粒度多模态大模型，旨在提升多模态大语言模型（MLLMs）在细粒度视觉识别（FGVR）任务中的性能。该模型通过引入对象的细粒度属性描述，并利用对比学习来对齐视觉对象与类别名称的表示，成功解决了传统模型在视觉对象与细粒度子类别之间的对齐问题。

Finedefics是什么

Finedefics 是北京大学彭宇新教授团队推出的一个细粒度多模态大模型，专注于改善多模态大语言模型（MLLMs）在细粒度视觉识别（FGVR）任务中的能力。该模型通过细致的属性描述，以及对比学习技术，精准对齐视觉对象与其对应的类别名称，克服了传统模型在此方面的不足。

Finedefics

Finedefics的主要功能

提升细粒度视觉识别能力：Finedefics 通过整合细粒度属性描述，采用对比学习方法有效对齐视觉对象与类别名称，解决了以往模型中存在的对齐问题。
数据与知识的协同训练：该模型通过促使大语言模型构建视觉对象的细粒度属性知识，实现了数据与知识的有效对齐和协同训练。
卓越的性能表现：在多个权威的细粒度图像分类数据集（如 Stanford Dog-120、Bird-200、FGVC-Aircraft 等）上，Finedefics 的平均准确率达到 76.84%，显著超越了其他同类模型。
属性描述的构建与对齐：Finedefics 通过分析细粒度子类别的关键特征（如毛色、毛型等），将这些特征转化为自然语言描述，并利用这些描述在大语言模型中对齐视觉对象与类别名称。

Finedefics的技术原理

属性描述构建：Finedefics 首先挖掘细粒度子类别的关键特征，如毛色、毛型、毛皮质地等，这些特征被整理为视觉对象的属性对（例如“毛色：棕褐色”），并以自然语言形式描述（如“图中小猫的毛发为棕褐色，带有斑纹，质地柔软”）。
属性增强对齐：通过属性增强对齐，Finedefics 将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标，利用对比学习方法建立视觉对象与细粒度子类别间的联系。
对比学习与指令微调：在训练过程中，Finedefics 结合对比学习，将视觉对象、属性描述与类别名称的全局表示输入大语言模型，并通过引入困难负样本优化对齐效果。同时，通过指令微调进一步提升其在细粒度视觉识别任务中的表现。