原标题:Meta斯坦福全新多模态Apollo,60分钟视频轻松理解!7B性能超越30B
文章来源:新智元
内容字数:7954字
Meta和斯坦福大合发布Apollo:高效且强大的视频多模态大模型
Meta和斯坦福大学的研究团队合作,对视频多模态大模型(LMM)进行了全面的研究,取得了显著成果。他们不仅创建了新的评估基准ApolloBench,提高了评估效率,还提出了模型设计的“规模一致性”概念,并开源了高性能的Apollo模型,在多个基准测试中取得了领先结果。
高效的评估基准:ApolloBench
现有的视频问答基准存在资源密集和冗余的问题。研究团队针对此问题,创建了ApolloBench。该基准通过筛选问题,确定了五大时态感知类别,并手动选择和验证了400个问题。ApolloBench的评估速度比现有基准快41倍,同时与现有基准高度相关,更能体现视频感知能力。这使得对视频LMM的评估更加高效和有效。
规模一致性:高效的模型设计
研究发现,中等规模(约2-4B)模型的设计决策与更大模型高度相关,他们将此现象称为“规模一致性”。这意味着在中等规模模型和数据集上进行的设计决策可以可靠地迁移到更大的模型,这大大减少了模型设计和扩展研究的成本。
高效模型设计的关键因素
研究团队深入探索了影响LMM设计效率的关键因素,包括视频采样、视频表示、视频token重采样和视频token集成。实验结果表明:fps采样优于均匀采样;SigLIP-SO400M是最佳单一视频编码器,结合InternVideo2性能更佳;感知器重采样在token重采样中表现最佳;在视频token之间添加文本或学习到的token可以提高token集成效率。
高效的多模态大模型训练
研究团队还探索了高效的训练策略,包括训练调度器和数据组合。三阶段训练调度策略效果最佳;在混合数据上训练视觉编码器,并包含10%-14%的文本数据,可以有效避免灾难性遗忘并提升性能;视频数据和图像数据比例应略微偏向视频数据。
高性能的Apollo模型
基于以上研究成果,团队开发了一系列Apollo模型,其中Apollo-3B超越了几乎所有7B模型,Apollo-7B则是目前7B模型中性能最佳的。Apollo-7B甚至在某些基准上与参数超过30B的模型性能相当,甚至超越,这证明了高效的模型设计和训练策略的重要性。
总而言之,Meta和斯坦福大学的研究团队通过创建ApolloBench、提出规模一致性概念、探索高效模型设计和训练策略,并开源高性能的Apollo模型,为视频多模态大模型的研究和发展做出了重要贡献。这项工作不仅推动了视频理解领域的发展,也为其他多模态大模型的研究提供了宝贵的经验和参考。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。