ICLR 2025｜南洋理工大学AvatarGO，探索4D人与物体交互生成新方法

AIGC动态1年前 (2025)发布机器之心

这是首次尝试基于文本引导生成具有物体交互的4D虚拟形象。

原标题：ICLR 2025｜南洋理工大学AvatarGO，探索4D人与物体交互生成新方法
文章来源：机器之心
内容字数：11019字

AvatarGO：基于文本引导的4D人体-物体交互生成框架

本文介绍了南洋理工大学S-Lab提出的AvatarGO，一个全新的4D人体-物体交互（HOI）生成框架，能够生成流畅逼真的人体与物体交互动画，并有效解决穿模问题。AvatarGO突破了现有方法依赖SMPL模型的局限性，在以人为中心的4D内容创作领域展现了巨大潜力。

1. 现有方法的局限性

现有的4D HOI生成方法主要依赖SMPL人体模型，难以真实呈现日常生活中复杂的人体与物体交互场景。虽然一些方法（如InterDreamer）实现了零样本生成，但仍受限于SMPL模型在衣物表现和对复杂交互场景的处理能力。尽管2D生成模型借助大语言模型和海量数据取得了显著进展，但将这些技术迁移到3D/4D HOI生成时，仍面临两个关键挑战：（1）物体与人体的接触区域如何确定？（2）如何保持人体与物体在动态过程中的交互合理性？

2. AvatarGO的核心创新

为了解决上述挑战，AvatarGO提出了两项关键创新：

LLM引导的接触区域重定向：利用Lang-SAM模型从文本中识别大致的接触部位，作为优化过程的初始化，解决扩散模型在估计接触区域时的难题。
对应关系感知的动作优化：将物体的分为主动和从动部分，利用SMPL-X作为中介，确保人体和物体在交互过程中保持一致的对应关系，显著提高了对穿模问题的鲁棒性。

3. AvatarGO的框架结构

AvatarGO框架主要包含两个部分：

文本驱动的3D人体与物体组合：利用LLM从文本中重定向接触区域，结合空间感知的SDS（空间感知评分蒸馏采样）合成3D模型。
对应关系感知的动作优化：联合优化人体和物体的动画，保持空间对应关系，提高对穿模问题的鲁棒性。

4. 关键技术细节

AvatarGO通过空间感知评分蒸馏采样（SSDS）增强人体和物体之间的空间关系，并利用LLM引导的接触区域重定向技术精确定义接触区域。在动作优化方面，AvatarGO利用SMPL-X的线性混合蒙皮函数建立场，并提出对应关系感知优化方法，通过联合优化人体和物体的可训练参数，有效减少穿模问题。

5. 实验结果与局限性

实验结果表明，AvatarGO在生成高保真4D动画方面显著优于现有方法，在处理穿模问题上也具有更强的鲁棒性。然而，AvatarGO也存在局限性，例如它假设物体是刚体，难以处理非刚性物体动画，并且假设物体与人体持续接触，难以处理间断接触的交互场景。

6. 总结

AvatarGO为基于文本引导的4D人体-物体交互生成开辟了新的途径，其在解决穿模问题和生成逼真交互动画方面取得了显著进展。尽管存在一些局限性，但AvatarGO的创新方法为未来研究提供了宝贵的参考。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 4D人机交互 # Avatar生成 # 三维场景生成 # 交互式AI # 物体交互生成

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

ICLR 2025｜南洋理工大学AvatarGO，探索4D人与物体交互生成新方法

这是首次尝试基于文本引导生成具有物体交互的4D虚拟形象。

AvatarGO：基于文本引导的4D人体-物体交互生成框架

1. 现有方法的局限性

2. AvatarGO的核心创新

3. AvatarGO的框架结构

4. 关键技术细节

5. 实验结果与局限性

6. 总结

联系作者

Bengio参与，扩散模型+蒙特卡洛树搜索实现System 2规划

挖掘「缝合」的潜力：CapaBench 揭示 LLM 智能体中各个模块的作用

相关文章

暂无评论