PrimitiveAnything

PrimitiveAnything – 腾讯联合清华大学推出的新型3D形状生成框架

PrimitiveAnything

PrimitiveAnything是什么

PrimitiveAnything是由腾讯人工智能平台部(AIPD)与清华大学共同研发的一款创新性3D形状生成框架。该框架将复杂的3D形状分解为简单的基元元素,通过自回归方式生成这些基元,最终再将它们组合成完整的3D形状。其核心优势体现在高质量的生成效果、强大的泛化能力以及高效的处理速度。

主要功能

  • 高质量的3D原语组装生成:能够生成几何上高度忠实于原始模型的3D原语组装,同时符合人类对形状的直观理解。
  • 多样化的3D内容创作:支持基于文本或图像的条件生成3D内容,为用户提供灵活的创作方式。
  • 高效的存储与编辑:由于采用原语表示,生成的3D模型在存储效率上更优,同时也便于后续编辑和调整。
  • 自回归变换器架构:借助自回归变换器逐帧生成3D原语,能够处理不同长度的原语序列,并轻松扩展至新的原语类型。
  • 无歧义的参数化方案:通过消除参数化中的歧义,确保模型在训练和生成过程中保持稳定和准确。
  • 几何保真度与语义一致性:在生成过程中,PrimitiveAnything确保高几何保真度,并能产生符合人类认知的语义分解结果。
  • 模块化设计:框架的模块化设计支持无缝集成新的原语类型,无需调整整体架构,能够适应不同的原语表示方式。

技术原理

  • 无歧义的参数化方案
    • 统一表示:使用多种基元类型(如立方体、椭圆柱体和椭球体)在统一的参数化框架下表示3D形状,每种基元的类型、位置、旋转和缩放等属性都被编码,并输入到模型中。
    • 消除歧义:为解决参数化中的歧义,研究团队制定了一整套规则,通过分析基元的对称性,选取旋转参数L1范数最小的一组作为唯一表示,从而确保训练过程的稳定性和准确性。
  • 自回归变换器架构
    • 形状条件化:框架采用基于解码器的Transformer架构,能够根据形状特征生成可变长度的基元序列。首先通过点云编码器提取3D形状的特征表示,然后自回归Transformer模型接收这些特征和之前生成的基元信息,预测下一个基元的特征。
    • 级联解码器:为了捕捉基元属性之间的依赖关系,框架使用级联解码器依次预测基元的类型、位置、旋转和缩放等属性,反映基元属性之间的自然关联,符合人类的组装逻辑。
  • 自回归生成流程
    • 序列生成:将整个基元生成过程视为一个序列生成任务,模型以点云作为输入条件,自回归地生成基元序列,直至预测出结束标记。
    • 训练目标:在训练过程中,结合交叉熵损失、Chamfer距离(用于重构准确性)和Gumbel-Softmax(用于可微采样),直到生成序列的结束标记,从而灵活且类人地分解复杂的3D形状。

项目地址

应用场景

  • 3D建模与设计:PrimitiveAnything能够迅速生成复杂3D模型的“几何骨架”,设计师可在此基础上专注细节,显著提升工作效率与设计速度。
  • 游戏资产生成:游戏设计师可以利用PrimitiveAnything快速生成多样的游戏场景和角色模型,提高开发效率。玩家也能通过简单的几何积木拼接创造新角色或道具,AI将自动进行优化调整,并无缝集成到物理引擎中。
  • 用户生成内容(UGC):该框架支持根据文本或图像生成3D内容,用户可以轻松编辑生成的结果,为游戏中的UGC提供新的可能性。
  • 虚拟现实(VR)和增强现实(AR):在虚拟现实和增强现实环境中,PrimitiveAnything可以快速生成逼真的3D对象,增强用户体验。

常见问题

如需了解更多关于PrimitiveAnything的信息,请访问项目官网或相关链接,获取详细资料和使用指南。

阅读原文
© 版权声明
Trae官网

相关文章

Trae官网

暂无评论

暂无评论...