CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

AIGC动态9个月前发布 机器之心
15 0 0

CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

AIGC动态欢迎阅读

原标题:CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
关键字:模型,姿态,冗余,序列,视频
文章来源:机器之心
内容字数:9248字

内容摘要:


机器之心专栏
机器之心编辑部目前,Video Pose Transformer(VPT)在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来,这些 VPT 的计算量变得越来越大,这些巨大的计算量同时也限制了这个领域的进一步发展,对那些计算资源不足的研究者十分不友好。例如,训练一个 243 帧的 VPT 模型通常需要花费好几天的时间,严重拖慢了研究的进度,并成为了该领域亟待解决的一大痛点。
那么,该如何有效地提升 VPT 的效率同时几乎不损失精度呢?
来自北京大学的团队提出了一种基于沙漏 Tokenizer 的高效三维人体姿态估计框架HoT,用来解决现有视频姿态 Transformer(Video Pose Transformer,VPT)高计算需求的问题。该框架可以即插即用无缝地集成到 MHFormer,MixSTE,MotionBERT 等模型中,降低模型近 40% 的计算量而不损失精度,代码已开源。标题:Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation
论文地址:https


原文链接:CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...