Meta 开源的图像生成框架，精确控制人物的外观和姿势

AI工具1年前 (2024)发布 AI工具集

产品名称：Leffa
产品简介：Leffa（Learning Flow Fields in Attention）是 Meta AI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa基于正则化损失函数，指导模型在训练时让目标查询聚焦于参考图像中的正确区域，减少细节失真，提升图像质量。
详细介绍：

Leffa是什么

Leffa（Learning Flow Fields in Attention）是 Meta AI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa基于正则化损失函数，指导模型在训练时让目标查询聚焦于参考图像中的正确区域，减少细节失真，提升图像质量。Leffa不增加额外参数和推理成本，且适用于多种扩散模型，展现了良好的模型无关性和泛化能力。

Leffa的主要功能

外观控制（虚拟试穿）：根据参考图像（如服装图片）生成穿着该服装的人物图像，保持人物原有特征不变。
姿势控制（姿势转移）：L将一个人物的姿势从一个图像转移到另一个图像，保持人物的外观细节。
细节保留：减少生成图像中的细节失真，如纹理、文字和标志等。
质量维持：在控制细节的同时，保持生成图像的整体高质量。

Leffa的技术原理

注意力机制：基于注意力机制，用注意力层将目标图像（待生成的人物图像）与参考图像（提供外观或姿势的图像）关联起来。
流场学习：基于学习注意力层中的流场（flow fields），显式指导目标查询（target query）关注于参考键（reference key）的正确区域。
正则化损失：在注意力图上施加正则化损失，将参考图像变形以更紧密地与目标图像对齐，鼓励模型在训练期间正确关注参考区域。
空间一致性：基于转换注意力图到流场，用网格采样操作将参考图像变形，确保目标查询与参考图像之间的空间一致性。
模型无关性：作为正则化损失函数，集成到不同的扩散模型中，无需额外参数或复杂的训练技术。
渐进式训练：在训练的最后阶段应用，避免早期性能退化，基于结合传统的扩散损失和Leffa损失进行微调，优化模型性能。