第一个结合SAM-2和LLaVA-like的视频多模态大模型。
原标题:统一SAM2和LLaVA!字节豆包提出Dense Video多模态大模型Sa2VA
文章来源:机器之心
内容字数:8977字
Sa2VA:首个结合SAM-2和LLaVA-like的视频多模态大模型
本文介绍了来自字节跳动、北京大学等机构研究者提出的Sa2VA模型,这是市面上第一个结合SAM-2和LLaVA-like架构的视频多模态大模型。Sa2VA整合了SAM-2的感知能力和LLaVA的推理能力,实现了时空细粒度的视频理解,并在多个视频和图像理解任务上取得了领先效果。
1. 研究背景和动机
近年来,多模态大语言模型取得了显著进展,能够支持图像对话、视频对话等多种任务。然而,现有模型在细粒度图像和视频理解方面存在不足:感知模型缺乏自然语言推理能力,而多模态大语言模型缺乏感知能力,特别是视频分割能力。Sa2VA旨在结合两者的优势,构建一个统一的模型,支持图像、视频细粒度感知以及对话、分析等任务。
2. 模型设计与实现
Sa2VA的核心设计理念是将所有输入(文本、视觉提示、图像、视频)统一编码为令牌,进行联合训练。模型主要包含两部分:多模态大语言模型和SAM-2模型。多模态大语言模型负责处理文本和视觉信息,SAM-2模型负责分割任务。两者通过“[SEG]”令牌连接,实现信息的交互和传递。对于视频指代分割,Sa2VA利用关键帧和SAM-2的记忆编码器实现高效的跟踪和分割。
3. 训练方法
Sa2VA采用统一的指令微调格式,整合了图像和视频Referring Expression Segmentation (RES)、Visual Question Answering (VQA)、Grounded Conversation Generation (GCG)等多种任务,并使用不同的损失函数进行联合训练。得益于预训练的多模态大语言模型,Sa2VA无需额外的预训练阶段。
4. Ref-SAM-v Benchmark
研究者还提出了一个新的Benchmark,Ref-SAM-2v,以及对应的训练数据集,该数据集相比于之前的Ref-VOS数据集更具挑战性。
5. 数值结果与可视化
Sa2VA在13个公开数据集上的5个不同任务中取得了领先的结果,并在提出的Ref-SAM-v benchmark上也大幅领先现有工作。可视化结果展示了Sa2VA在图像和视频字幕生成、对话、指代对象分割、GCG、视觉指代物体描述等任务上的出色性能,并能扩展到开放场景。
6. 总结
Sa2VA 通过巧妙地结合SAM-2和LLaVA-like模型的优势,并采用创新的训练方法,在视频多模态理解领域取得了突破性进展。其在细粒度视频理解和多种下游任务上的优异表现,为未来多模态大模型的发展提供了新的方向。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台