0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源

文章来源：量子位

内容字数：6115字

内容摘要：Brady 投稿量子位 | 公众号 QbitAI用多模态大模型来做语义分割，效果有多好？一张图+文字输入想分割的物体，大模型几秒钟就能识别并搞定！只需输入想分割的对象如“擎天柱”，单个目标立刻就能被精准识别、快速切割：多个物体也是手到擒来，像是指定天空、水、树、草、女孩、龙猫（Chinchilla），同样能火速分割：表情包也没问题：这是来自厦门大学等机构的最新多模态基础感知大模型，一上来就在160个测试集上达成了SOTA或持平近似的结果，没有针对任何下游任务进行微调。目前，模型架构和参数已经全部开源，一起来看看这是怎么实现的。多模态大模型APE长啥样？此前，视觉基础模型（Vision Foundation Models）方向一直在探索建立一个通用的视觉感知系统。已有的方法可以分为三类，但都有一些不足之处：第一类采用自监督的训练方式，例如DINO和CLIP等，这类方法在做下游感知类任务的时候…

原文链接：点此阅读原文：0微调搞定160个测试集！最强多模态分割一切大模型来了，架构参数全开源