开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

AIGC动态欢迎阅读

原标题：开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品
关键字：视觉,模型,文本,语言,数据
文章来源：量子位
内容字数：0字

内容摘要：

Mono-InternVL团队投稿量子位 | 公众号 QbitAI原生多模态大模型性能瓶颈，迎来新突破！
上海AI Lab代季峰老师团队，提出了全新的原生多模态大模型Mono-InternVL。
与非原生模型相比，该模型首个单词延迟最多降低67%，在多个评测数据集上均达到了SOTA水准。
与常见的采用CLIP等结构进行视觉编码的模块化多模态大模型不同，Mono-InternVL将视觉感知和多模态理解均集成到大语言模型中。
相比于现有多模态大模型，Mono-InternVL有以下技术亮点：
开源原生多模态架构最优解：无需额外的视觉编码器，通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径，2B模型多模态能力优于7B参数的现有原生多模态模型，多个指标超越InternVL1.5。
兼具视觉灵活性和部署高效性：支持高达2M像素输入的动态图像分辨率，在原生多模态架构中感知精度最高。相比于InternVL1.5，在部署框架上首个单词延迟最多降低67%，整体吞吐量提高31%。
原生多模态大模型遗忘问题现有的多模态大模型（MLLM）通常采用视觉编码器-对齐模块-语言模型的结构，将

原文链接：开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品