上交发布MG-LLaVA，基于多粒度指令调整，横扫视觉大模型榜单

AIGC动态1年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：上交发布MG-LLaVA，基于多粒度指令调整，横扫视觉大模型榜单
关键字：视觉,特征,模型,物体,粒度
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 |Richard近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而，大多数模型仍局限于处理低分辨率图像，这限制了它们在需要详细视觉信息的任务中的表现。针对这一问题，上海交通大学的研究团队推出了MG-LLaVA（Multi-Granularity LLaVA），这是一种基于多粒度指令调整的创新多模态大语言模型。MG-LLaVA凭借其出色的性能，在多个视觉大模型评测榜单中取得了领先成绩。
MG-LLaVA的核心亮点在于引入了多粒度视觉流，同时处理低分辨率、高分辨率和物体中心的特征。这一设计显著提升了模型的视觉处理能力。具体来说，MG-LLaVA增加了一个高分辨率视觉编码器来捕捉细粒度细节，并通过一个卷积门控融合网络将这些细节与基础视觉特征融合。此外，研究人员还利用离线检测器识别的边界框，引入了物体级特征，进一步增强了模型的物体识别能力。
通过在公开可用的多模态数据集上进行指令调优，MG-LLaVA展现出了卓越的感知技能。研究人员还尝试了从3.8B到34B不同规模的语言编码器，全面评估了模型的性能。在多项基准测试中，MG-LLaVA的表现超越了同

原文链接：上交发布MG-LLaVA，基于多粒度指令调整，横扫视觉大模型榜单

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文