CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术
关键字：视频,本文,模型,性能,卷积
文章来源：机器之心
内容字数：6826字

内容摘要：

机器之心报道
编辑：Rome Rome视频理解因大量时空冗余和复杂时空依赖，同时克服两个问题难度巨大，CNN 和 Transformer 及 Uniformer 都难以胜任，Mamba 是个好思路，让我们看看本文是如何创造视频理解的 VideoMamba。视频理解的核心目标在于对时空表示的把握，这存在两个巨大挑战：短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战，但它们在同时解决这两个挑战方面存在不足。UniFormer 试图整合这两种方法的优势，但它在建模长视频方面存在困难。
S4、RWKV 和 RetNet 等低成本方案在自然语言处理领域的出现，为视觉模型开辟了新的途径。Mamba 凭借其选择性状态空间模型 (SSM) 脱颖而出，实现了在保持线性复杂性的同时促进长期动态建模的平衡。这种创新推动了它在视觉任务中的应用，正如 Vision Mamba 和 VMamba 所证实的那样，它们利用多方向 SSM 来增强二维图像处理。这些模型在性能上与基于注意

原文链接：CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

联系作者

文章来源：机器之心
作者微信：almosthuman2014
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 卷积 # 性能 # 本文 # 模型 # 视频

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

AIGC动态欢迎阅读

内容摘要：

联系作者

32K上下文，Mistral 7B v0.2 基模型突然开源了

从 Copilot 到独立 AI 开发者：「Devin 们」还有多长的路要走？

相关文章

暂无评论

CNN、Transformer、Uniformer之外，我们终于有了更高效的视频理解技术

AIGC动态欢迎阅读

内容摘要：

联系作者

32K上下文，Mistral 7B v0.2 基模型突然开源了

从 Copilot 到独立 AI 开发者：「Devin 们」 还有多长的路要走？

相关文章

暂无评论

从 Copilot 到独立 AI 开发者：「Devin 们」还有多长的路要走？