CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

AIGC动态9个月前发布 机器之心
28 0 0

CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

AIGC动态欢迎阅读

原标题:CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE
关键字:目标,字节跳动,数据,任务,模型
文章来源:机器之心
内容字数:4201字

内容摘要:


机器之心专栏
机器之心编辑部近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。为了解决这个问题,来自华中科技大学和字节跳动的研究团队提出了一个针对视觉目标的基础模型 GLEE,一次性解决图像和视频中的几乎所有目标感知任务。GLEE 支持根据任意开放词表、目标的外观位置描述、和多种交互方式进行目标检测、分割、跟踪,并在实现全能性的同时保持 SOTA 性能。
此外,GLEE 还构建了统一优化目标的训练框架,从超过一千万的多源数据中汲取知识,实现对新数据和任务的零样本迁移。并验证了多种数据之间相互促进的能力。模型和训练代码已全部开源。论文标题:GLEE: General Object Foundation Model for Images and Videos at Scale
论文地址:https://arxiv.org/abs/2312.09158
代码地址:


原文链接:CVPR 2024 | 一统所有目标感知任务,华科&字节提出目标感知基础模型GLEE

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...