ViTPose

AI工具2年前 (2025)发布 AI工具集

ViTPose – 基于 Transformer 架构的人体姿态估计模型

ViTPose是什么

ViTPose 是一种利用 Transformer 架构进行人体姿态估计的先进模型。该模型以标准视觉 Transformer 为基础，通过对输入图像进行切块处理并将其送入 Transformer 模块，提取出图像特征，最终通过解码器将这些特征转化为热图，实现对人体关键点的高精度定位。ViTPose 提供多种规模的版本，例如 ViTPose-B、ViTPose-L 和 ViTPose-H，用户可以根据具体需求进行选择。在 MS COCO 等数据集上，ViTPose 展现了其出色的性能，证明了视觉 Transformer 在姿态估计任务中的巨大潜力。此外，改进版本 ViTPose+ 进一步拓展了模型的应用范围，涵盖了动物和人体等多种姿态估计任务，显著提高了性能和适用性。

ViTPose

ViTPose的主要功能

关键点定位：能够识别图像中人体的多个关键点，如关节、手和脚，广泛应用于分析、虚拟现实以及人机交互等领域。
简洁的模型架构：采用常规视觉 Transformer 作为骨干网络进行特征提取，结合简易的解码器将特征解码为热图，确保关键点的高精度定位。其结构简洁，便于实现和扩展。
强大的可扩展性：通过调整 Transformer 的层数和头数等超参数，模型参数可从 100M 扩展到 1B，以适应不同规模的任务需求，同时保持高效能。
高度灵活：在训练过程中具有灵活性，支持多种预训练及微调策略，能够处理多种输入分辨率和注意力类型，适应多种姿态估计任务。
知识迁移能力：大模型的知识可以通过简单的知识令牌轻松迁移到小模型，进一步增强了模型的实用性和灵活性。

ViTPose的技术原理

视觉 Transformer：ViTPose 采用标准的非分层视觉 Transformer 作为特征提取的骨干网络。输入图像首先被切分成多个小块（patches），每个小块嵌入到高维空间中，形成 tokens。这些 tokens 经过多个 Transformer 层处理，每一层都包含多头自注意力（Multi-head Self-Attention,MHSA）和前馈网络（Feed-Forward Network,FFN）。
特征提取：经过 Transformer 层的处理后，输出的特征图蕴含丰富的语义信息，能够有效捕捉图像中人体关键点的特征。
热图预测：ViTPose 的解码器将编码器输出的特征图转化为热图，热图中的每个像素值表示该位置是某个关键点的概率。解码器有两种选择：
- 标准解码器：采用转置卷积（transposed convolution）进行上采样，并通过预测层生成热图。
- 简单解码器：直接使用双线性插值进行上采样，生成热图。
模型知识迁移：ViTPose 的知识可以通过简单的知识令牌（knowledge token）迁移到小模型，进一步增强模型的灵活性和实用性。
领先性能：ViTPose 在多个姿态估计数据集上达到了新的最先进（SOTA）水平和帕累托前沿。