原标题:Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B
文章来源:新智元
内容字数:7954字
多模态大模型在视频理解中的新突破
Meta与斯坦福大学的联合研究团队针对多模态大模型(LMM)在视频理解中的机制进行了深入探讨,提出了一系列创新的模型设计和训练方法。研究旨在提升现有视频问答基准的效率,并通过推出ApolloBench来解决评估过程中的资源密集和冗余问题。
1. ApolloBench的高效评估
研究团队开发了ApolloBench,通过筛选问题并归类为五大时态感知类别,验证其有效性。与现有基准相比较,ApolloBench的评估速度提高了41倍,同时保持了高度相关性,表明其在视频理解领域的有效性。
2. 模型规模的一致性
研究发现,约2-4B规模的模型设计决策与更大模型高度相关,称之为“规模一致性”。这一发现使得研究人员能够在中等规模的模型上进行设计决策,并可靠地迁移到更大的模型上,从而减少了扩展研究的需求。
3. 视频采样和表示
在视频采样方面,研究表明fps采样在训练和推理过程中优于均匀采样。此外,SigLIP-SO400M在单编码器设置中的表现优于其他编码器,显示出视频编码器在时态感知方面的优势。
4. 视频token重采样与集成
研究还探讨了token重采样的重要性,发现感知重采样在各项指标上均表现优越。同时,集成视频和文本token的策略也对模型的性能产生了显著影响,特别是在时间戳的应用上。
5. 训练调度与数据组合
研究团队评估了不同的训练调度策略,发现三阶段训练效果最佳。此外,混合数据的使用,特别是适量的文本数据,能够有效提升模型性能,避免灾难性遗忘。
6. Apollo模型的优越表现
Apollo模型在多个基准数据集上表现出色,Apollo-7B模型的性能甚至超过了某些参数超过30B的模型,显示出精心设计架构和训练策略的重要性。
综上所述,此项研究为视频理解领域的多模态大模型提供了新的视角和方法,推动了相关技术的进步与创新。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。