CVPR 2024满分论文｜英伟达开源大模型FoundationPose称霸BOP排行榜

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：CVPR 2024满分论文｜英伟达开源大模型FoundationPose称霸BOP排行榜
关键字：模型,姿态,物体,数据,研究人员
文章来源：新智元
内容字数：11820字

内容摘要：

新智元报道编辑：LRS
【新智元导读】FoundationPose模型使用RGBD图像对新颖物体进行姿态估计和跟踪，支持基于模型和无模型设置，在多个公共数据集上大幅优于针对每个任务专门化的现有方法.FoundationPose是一个「用于6D物体姿态估计和跟踪」的统一大模型，支持基于模型和无模型设置，无需微调即可应用于新颖的物体上，只要给出其CAD模型，或者拍摄少量参考图像即可。论文地址：https://arxiv.org/abs/2312.08344
项目主页：https://nvlabs.github.io/FoundationPose/
项目代码：https://github.com/NVlabs/FoundationPose
研究人员通过神经隐式表示来弥合这两种设置之间的差距，这种表示允许有效的新视图合成，并在同一统一框架下保持下游姿态估计模块的不变性。
在大规模合成训练、大型语言模型（LLM）、一种新颖的基于Transformer的架构和对比学习公式的辅助下，模型实现了强大的泛化能力。在涉及挑战性场景和物体的多个公共数据集上进行了广泛评估，结果表明该方法在性能上大幅优于

原文链接：CVPR 2024满分论文｜英伟达开源大模型FoundationPose称霸BOP排行榜