实现了降低时间、空间、样本冗余性的统一建模
原标题:TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!
文章来源:机器之心
内容字数:4995字
机器之心AIxiv专栏推荐:高效视频理解框架Uni-AdaFocus
本文介绍了近期被IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 录用的一篇论文:Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition。该论文提出了一种高效的视频理解框架Uni-AdaFocus,其会议版本AdaFocus V1/V2/V3分别发表于ICCV-2021、CVPR-2022和ECCV-2022。代码和预训练模型已开源。
1. 研究背景与动机
随着视频数据量的式增长,高效的视频理解技术至关重要。现有深度学习模型在处理视频时计算开销巨大,这主要源于视频数据的时间和空间冗余性。Uni-AdaFocus 旨在解决这个问题。
2. Uni-AdaFocus的核心思想
Uni-AdaFocus的核心思想是通过统一建模来降低时间、空间和样本三个维度上的冗余性。具体而言:
降低时间冗余性:动态选择关键帧,避免对所有帧进行处理。
降低空间冗余性:动态定位每一帧中的关键区域,集中计算资源。
降低样本冗余性:根据样本难度差异化分配计算资源,优先处理困难样本。
Uni-AdaFocus巧妙地利用数学方法解决了时空动态计算的不可微分问题,实现了高效的端到端训练,无需复杂的强化学习。
3. 模型架构
Uni-AdaFocus采用了一个三阶段架构:首先,轻量级全局编码器提取视频的全局特征;然后,策略网络根据全局特征选择关键帧和关键区域;最后,高容量局部编码器处理选择的区域,并结合全局特征进行最终分类。通过早退机制进一步优化样本维度上的计算。
4. 实验结果
实验结果表明,Uni-AdaFocus在多个数据集(ActivityNet,FCVID,Mini-Kinetics,Something-Something-V1&V2,Jester,Kinetics-400)和应用场景(阿尔兹海默症和帕金森综合征诊断、细粒度跳水动作识别、不良视频检测)上均取得了显著的性能提升和加速效果。与现有最佳方法相比,Uni-AdaFocus在长视频理解上加速了5倍,并能兼容多种骨干网络,例如TSM和X3D,分别实现约4倍的加速,同时保持甚至提升了准确率。在某些情况下,Uni-AdaFocus可实现高达23倍的推理加速或7.7%的准确率提升,CPU/GPU实测结果与理论结果高度一致。
5. 总结
Uni-AdaFocus是一个高效且通用的视频理解框架,它通过统一建模降低了视频数据的时间、空间和样本冗余性,实现了显著的性能提升和计算效率的提高。其开源的代码和预训练模型为视频理解领域的研究和应用提供了 valuable 的工具。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台