百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D

AIGC动态2个月前发布 新智元
14 0 0

百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D

AIGC动态欢迎阅读

原标题:百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D
关键字:物体,数据,模型,指令,任务
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:LRST
【新智元导读】Robin3D通过鲁棒指令数据生成引擎(RIG)生成的大规模数据进行训练,以提高模型在3D场景理解中的鲁棒性和泛化能力,在多个3D多模态学习基准测试中取得了优异的性能,超越了以往的方法,且无需针对特定任务的微调。多模态大语言模型(Multi-modal Large Language Models, MLLMs)以文本模态为基础,将其它各种模态对齐至语言模型的语义空间,从而实现多模态的理解和对话能力。近来,越来越多的研究聚焦于3D大语言模型(3DLLM),旨在实现对3D物体以及复杂场景的理解,推理和对话。
与2D MLLM所能接触的广泛的多模态数据不同,3DLLM的训练数据相对稀少。
即便过去有些工作尝试生成更多的多模态指令数据,但这类模型仍然在指令的鲁棒性上存在两点不足:
1. 绝大多数3D多模态指令数据对是正样本对,缺乏负样本对或者对抗性样本对。模型在这种数据上训练缺乏一定的辨识能力,因为无论被问到什么问题,模型只会输出正面的回答。因此碰到问题与场景无关时,模型也更容易出现幻觉。这种模型有可能只是记住了正样本对,而非真正地理解被问及的场景


原文链接:百万鲁棒数据训练,3D场景大语言模型新SOTA!IIT等发布Robin3D

联系作者

文章来源:新智元
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...