百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布Robin3D

AIGC动态欢迎阅读

原标题：百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布Robin3D
关键字：物体,数据,模型,指令,任务
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRST
【新智元导读】Robin3D通过鲁棒指令数据生成引擎（RIG）生成的大规模数据进行训练，以提高模型在3D场景理解中的鲁棒性和泛化能力，在多个3D多模态学习基准测试中取得了优异的性能，超越了以往的方法，且无需针对特定任务的微调。多模态大语言模型（Multi-modal Large Language Models, MLLMs）以文本模态为基础，将其它各种模态对齐至语言模型的语义空间，从而实现多模态的理解和对话能力。近来，越来越多的研究聚焦于3D大语言模型（3DLLM），旨在实现对3D物体以及复杂场景的理解，推理和对话。
与2D MLLM所能接触的广泛的多模态数据不同，3DLLM的训练数据相对稀少。
即便过去有些工作尝试生成更多的多模态指令数据，但这类模型仍然在指令的鲁棒性上存在两点不足：
1. 绝大多数3D多模态指令数据对是正样本对，缺乏负样本对或者对抗性样本对。模型在这种数据上训练缺乏一定的辨识能力，因为无论被问到什么问题，模型只会输出正面的回答。因此碰到问题与场景无关时，模型也更容易出现幻觉。这种模型有可能只是记住了正样本对，而非真正地理解被问及的场景

原文链接：百万鲁棒数据训练，3D场景大语言模型新SOTA！IIT等发布Robin3D