AIGC动态欢迎阅读
原标题:解决原生MLLM灾难性遗忘问题!上海AI Lab提出原生多模态大模型Mono-InternVL | 博士后研究员罗根讲座预告
关键字:报告,模型,视觉,灾难性,论文
文章来源:智猩猩GenAI
内容字数:0字
内容摘要:
现有的多模态大模型(MLLM)通常将预训练的视觉编码器与大语言模型结合来实现,即模块化MLLM。最近新兴的Chameleon、EVE等原生MLLM,将视觉感知和多模态理解直接集成到LLM中,能够更方便地通过现有工具进行部署,且具备更高的推理效率。
然而,由于原生MLLM缺乏视觉能力,但视觉预训练过程中语言基座能力常常出现灾难性遗忘问题,这导致现有原生MLLM的性能仍显著低于模块化MLLM。
为此,上海人工智能实验室通用视觉团队(OpenGVLab)联合清华大学、上海交通大学等提出了全新的原生多模态大模型Mono-InternVL。该模型采用增量预训练方法,解决了此前原生MLLM中的灾难性遗忘问题。与非原生模型相比,Mono-InternVL首个单词延迟能够降低67%,且在多个评测数据集上均达到了SOTA水准。相比于现有多模态大模型,Mono-InternVL无需额外的视觉编码器,通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径,且2B模型多模态能力优于7B参数的现有原生多模态模型,多个指标超越了InternVL1.5。
Mono-InternVL兼具了视觉灵活性和部署
原文链接:解决原生MLLM灾难性遗忘问题!上海AI Lab提出原生多模态大模型Mono-InternVL | 博士后研究员罗根讲座预告
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...