在12个视频理解任务中，Mamba先打败了Transformer

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：在12个视频理解任务中，Mamba先打败了Transformer
关键字：视频,模型,团队,建模,性能
文章来源：机器之心
内容字数：12228字

内容摘要：

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。探索视频理解的新境界，Mamba 模型引领计算机视觉研究新潮流！传统架构的局限已被打破，状态空间模型 Mamba 以其在长序列处理上的独特优势，为视频理解领域带来了性的变革。
来自学、上海人工智能实验室、复旦大学、浙江大学的研究团队发布了一项开创性工作。他们全面审视了 Mamba 在视频建模中的多重角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。结果令人振奋：Mamba 在视频专用和视频 – 语言任务中均展现出强劲的潜力，实现了效率与性能的理想平衡。这不仅是技术上的飞跃，更是对未来视频理解研究的有力推动。论文标题：Video Mamba Suite: State Spac

原文链接：在12个视频理解任务中，Mamba先打败了Transformer