CVPR 2024 | 一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

AIGC动态1年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：CVPR 2024 | 一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE
关键字：目标,字节跳动,数据,任务,模型
文章来源：机器之心
内容字数：4201字

内容摘要：

机器之心专栏
机器之心编辑部近年来，LLM 已经一统所有文本任务，展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力，其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务，目前依然缺乏一个强大的基础模型。为了解决这个问题，来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE，一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪，并在实现全能性的同时保持 SOTA 性能。
此外，GLEE 还构建了统一优化目标的训练框架，从超过一千万的多源数据中汲取知识，实现对新数据和任务的零样本迁移。并验证了多种数据之间相互促进的能力。模型和训练代码已全部开源。论文标题：GLEE: General Object Foundation Model for Images and Videos at Scale
论文地址：https://arxiv.org/abs/2312.09158
代码地址：

原文链接：CVPR 2024 | 一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE