达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩

还有2B的图像理解模型

达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩

原标题:达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
文章来源:量子位
内容字数:6118字

达摩院发布7B参数视频理解模型VideoLLaMA 3:图像为中心,性能超越基线

达摩院最新发布的7B参数视频理解模型VideoLLaMA 3,在通用视频理解、时间推理和长视频理解等方面取得了显著成果,超越了多数基线模型。更值得关注的是,其2B参数版本在图像理解方面也表现出色。

1. 核心优势:图像为中心的多模态模型

VideoLLaMA 3的核心创新在于其“图像为中心”的设计理念。该理念贯穿模型架构和训练过程,通过高质量的图像文本数据为视频理解奠定坚实基础。仅使用3M视频文本数据,就实现了全面超越同参数量开源模型的视频理解能力。这种高效的训练方式,得益于其独特的训练范式,主要包含四个关键内容:

  1. 视觉编码器适配: 能够处理动态分辨率图像,并利用不同场景图像提升性能,捕捉精细视觉细节。

  2. 视觉语言对齐: 利用丰富图像文本数据,增强多模态理解能力,并通过数据增强提升空间推理能力。

  3. 多任务微调: 利用图像文本问答数据和视频字幕数据微调模型,提升其遵循自然语言指令和多模态理解能力。

  4. 视频微调: 增强模型视频理解和问答能力,训练数据包含多种视频及图像、文本数据。

2. 技术创新:高效的模型架构

VideoLLaMA 3的模型架构包含两个关键创新:

  1. 任意分辨率视觉标记化(AVT):突破传统固定分辨率限制,采用2D-RoPE替换绝对位置嵌入,能够处理不同分辨率图像和视频,保留更多细节。

  2. 差分帧剪枝器(DiffFP):针对视频数据冗余问题,通过比较相邻帧像素空间的1-范数距离,修剪冗余视频标记,提高视频处理效率,减少计算需求。

3. 高质量数据:精细的数据处理流程

VideoLLaMA 3的成功也离不开高质量数据的支持。团队构建了包含700万图像-字幕对的VL3Syn7M数据集,并进行了多步骤的数据清洗和增强,包括长宽比过滤、美学评分过滤、文本-图像相似度计算、视觉特征聚类和图像重新标注等。此外,团队还采用了多阶段数据混合策略,为模型提供丰富多样的学习场景。

4. 实际应用及效果展示

VideoLLaMA 3已经在HuggingFace上提供图像和视频理解的demo。用户只需上传图片或视频,并提出问题,即可获得精准的回答。例如,针对《蒙娜丽莎的微笑》的提问,模型能够给出其历史影响和艺术意义的详细阐述;针对视频中熊吃寿司的场景,模型能够准确识别其不寻常之处。

5. 总结

VideoLLaMA 3凭借其图像为中心的设计理念、高效的模型架构和高质量的数据,在视频理解领域取得了显著进展。其在HuggingFace上的公开demo也方便了用户体验和应用,为多模态模型的发展提供了新的方向。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...