AIGC动态欢迎阅读
原标题:0微调搞定160个测试集!最强多模态分割一切大模型来了,架构参数全开源
文章来源:量子位
内容字数:6115字
内容摘要:Brady 投稿量子位 | 公众号 QbitAI用多模态大模型来做语义分割,效果有多好?一张图+文字输入想分割的物体,大模型几秒钟就能识别并搞定!只需输入想分割的对象如“擎天柱”,单个目标立刻就能被精准识别、快速切割:多个物体也是手到擒来,像是指定天空、水、树、草、女孩、龙猫(Chinchilla),同样能火速分割:表情包也没问题:这是来自厦门大学等机构的最新多模态基础感知大模型,一上来就在160个测试集上达成了SOTA或持平近似的结果,没有针对任何下游任务进行微调。目前,模型架构和参数已经全部开源,一起来看看这是怎么实现的。多模态大模型APE长啥样?此前,视觉基础模型(Vision Foundation Models)方向一直在探索建立一个通用的视觉感知系统。已有的方法可以分为三类,但都有一些不足之处:第一类采用自监督的训练方式,例如DINO和CLIP等,这类方法在做下游感知类任务的时候…
原文链接:点此阅读原文:0微调搞定160个测试集!最强多模态分割一切大模型来了,架构参数全开源
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...