ICLR 2025|南洋理工大学AvatarGO,探索4D人与物体交互生成新方法

这是首次尝试基于文本引导生成具有物体交互的4D虚拟形象。

ICLR 2025|南洋理工大学AvatarGO,探索4D人与物体交互生成新方法

原标题:ICLR 2025|南洋理工大学AvatarGO,探索4D人与物体交互生成新方法
文章来源:机器之心
内容字数:11019字

AvatarGO:基于文本引导的4D人体-物体交互生成框架

本文介绍了南洋理工大学S-Lab提出的AvatarGO,一个全新的4D人体-物体交互(HOI)生成框架,能够生成流畅逼真的人体与物体交互动画,并有效解决穿模问题。AvatarGO突破了现有方法依赖SMPL模型的局限性,在以人为中心的4D内容创作领域展现了巨大潜力。

1. 现有方法的局限性

现有的4D HOI生成方法主要依赖SMPL人体模型,难以真实呈现日常生活中复杂的人体与物体交互场景。虽然一些方法(如InterDreamer)实现了零样本生成,但仍受限于SMPL模型在衣物表现和对复杂交互场景的处理能力。尽管2D生成模型借助大语言模型和海量数据取得了显著进展,但将这些技术迁移到3D/4D HOI生成时,仍面临两个关键挑战:(1)物体与人体的接触区域如何确定?(2)如何保持人体与物体在动态过程中的交互合理性?

2. AvatarGO的核心创新

为了解决上述挑战,AvatarGO提出了两项关键创新:

  1. LLM引导的接触区域重定向:利用Lang-SAM模型从文本中识别大致的接触部位,作为优化过程的初始化,解决扩散模型在估计接触区域时的难题。

  2. 对应关系感知的动作优化:将物体的分为主动和从动部分,利用SMPL-X作为中介,确保人体和物体在交互过程中保持一致的对应关系,显著提高了对穿模问题的鲁棒性。

3. AvatarGO的框架结构

AvatarGO框架主要包含两个部分:

  1. 文本驱动的3D人体与物体组合:利用LLM从文本中重定向接触区域,结合空间感知的SDS(空间感知评分蒸馏采样)合成3D模型。

  2. 对应关系感知的动作优化:联合优化人体和物体的动画,保持空间对应关系,提高对穿模问题的鲁棒性。

4. 关键技术细节

AvatarGO通过空间感知评分蒸馏采样(SSDS)增强人体和物体之间的空间关系,并利用LLM引导的接触区域重定向技术精确定义接触区域。在动作优化方面,AvatarGO利用SMPL-X的线性混合蒙皮函数建立场,并提出对应关系感知优化方法,通过联合优化人体和物体的可训练参数,有效减少穿模问题。

5. 实验结果与局限性

实验结果表明,AvatarGO在生成高保真4D动画方面显著优于现有方法,在处理穿模问题上也具有更强的鲁棒性。然而,AvatarGO也存在局限性,例如它假设物体是刚体,难以处理非刚性物体动画,并且假设物体与人体持续接触,难以处理间断接触的交互场景。

6. 总结

AvatarGO为基于文本引导的4D人体-物体交互生成开辟了新的途径,其在解决穿模问题和生成逼真交互动画方面取得了显著进展。尽管存在一些局限性,但AvatarGO的创新方法为未来研究提供了宝贵的参考。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...