上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单

上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单

AIGC动态欢迎阅读

原标题:上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉模型榜单
关键字:视觉,特征,模型,物体,粒度
文章来源:夕小瑶科技说
内容字数:0字

内容摘要:


夕小瑶科技说 原创作者 |Richard近年来多模态大语言模型(MLLMs)在视觉理解任务中取得了长足进步。然而,大多数模型仍局限于处理低分辨率图像,这限制了它们在需要详细视觉信息的任务中的表现。针对这一问题,上海交通大学的研究团队推出了MG-LLaVA(Multi-Granularity LLaVA),这是一种基于多粒度指令调整的创新多模态大语言模型。MG-LLaVA凭借其出色的性能,在多个视觉大模型评测榜单中取得了领先成绩。
MG-LLaVA的核心亮点在于引入了多粒度视觉流,同时处理低分辨率、高分辨率和物体中心的特征。这一设计显著提升了模型的视觉处理能力。具体来说,MG-LLaVA增加了一个高分辨率视觉编码器来捕捉细粒度细节,并通过一个卷积门控融合网络将这些细节与基础视觉特征融合。此外,研究人员还利用离线检测器识别的边界框,引入了物体级特征,进一步增强了模型的物体识别能力。
通过在公开可用的多模态数据集上进行指令调优,MG-LLaVA展现出了卓越的感知技能。研究人员还尝试了从3.8B到34B不同规模的语言编码器,全面评估了模型的性能。在多项基准测试中,MG-LLaVA的表现超越了同


原文链接:上交发布MG-LLaVA,基于多粒度指令调整,横扫视觉大模型榜单

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...