突破极限：Meta斯坦福全新多模态Apollo，60分钟带你领略7B如何碾压30B！

原标题：Meta斯坦福全新多模态Apollo，60分钟视频轻松理解！7B性能超越30B
文章来源：新智元
内容字数：7954字

Meta与斯坦福大学的联合研究团队针对多模态大模型（LMM）在视频理解中的机制进行了深入探讨，提出了一系列创新的模型设计和训练方法。研究旨在提升现有视频问答基准的效率，并通过推出ApolloBench来解决评估过程中的资源密集和冗余问题。

研究团队开发了ApolloBench，通过筛选问题并归类为五大时态感知类别，验证其有效性。与现有基准相比较，ApolloBench的评估速度提高了41倍，同时保持了高度相关性，表明其在视频理解领域的有效性。

研究发现，约2-4B规模的模型设计决策与更大模型高度相关，称之为“规模一致性”。这一发现使得研究人员能够在中等规模的模型上进行设计决策，并可靠地迁移到更大的模型上，从而减少了扩展研究的需求。

在视频采样方面，研究表明fps采样在训练和推理过程中优于均匀采样。此外，SigLIP-SO400M在单编码器设置中的表现优于其他编码器，显示出视频编码器在时态感知方面的优势。

研究还探讨了token重采样的重要性，发现感知重采样在各项指标上均表现优越。同时，集成视频和文本token的策略也对模型的性能产生了显著影响，特别是在时间戳的应用上。

研究团队评估了不同的训练调度策略，发现三阶段训练效果最佳。此外，混合数据的使用，特别是适量的文本数据，能够有效提升模型性能，避免灾难性遗忘。

Apollo模型在多个基准数据集上表现出色，Apollo-7B模型的性能甚至超过了某些参数超过30B的模型，显示出精心设计架构和训练策略的重要性。

综上所述，此项研究为视频理解领域的多模态大模型提供了新的视角和方法，推动了相关技术的进步与创新。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

文章版权归作者所有，未经允许请勿转载。

暂无评论...