一套参数，狂揽160个SOTA！厦大等重磅开源「视觉感知基础模型」APE

AIGC动态2年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：一套参数，狂揽160个SOTA！厦大等重磅开源「视觉感知基础模型」APE

文章来源：新智元

内容字数：10970字

内容摘要：新智元报道编辑：LRS 好困【新智元导读】由厦门大学等机构提出的全新视觉感知基础模型APE，只需一个模型外加一套参数，就能在160个测试集上取得当前SOTA或极具竞争力的结果。而且训练和推理代码以及模型权重全部开源，无需微调，开箱即用。最近，来自厦门大学等机构的研究人员提出一种新的视觉感知基础模型APE——可以一次性对图像中的所有前背景区域、物体和部件进行高效图文对齐训练和查询提示推理，并输出目标检测、图像分割和视觉定位的结果。为了增强APE在现实世界场景中的实用性，研究人员从三个方面构建重要能力：1. 任务泛化：APE基于DETR框架构建，可执行广泛的语义理解任务，能够预测任何物体、区域和部件的标签、包围框和分割掩模。具体而言，研究人员将常见和长尾词汇的目标检测、各种粒度的图像分割和视觉定位统一到一个实例级检测transformer框架中。2. 数据多样性：APE同时在广泛的数据源上进行…

原文链接：点此阅读原文：一套参数，狂揽160个SOTA！厦大等重磅开源「视觉感知基础模型」APE