3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑
关键字：模型,研究人员,机器人,数据,场景
文章来源：新智元
内容字数：10285字

内容摘要：

新智元报道编辑：LRS 好困
【新智元导读】具身基础模型突破2D，全新生成式视觉-语言-行动模型3D-VLA，在多项任务中显著提高了推理、多模态生成和规划的能力。在最近的研究中，视觉-语言-动作（VLA，vision-language-action）模型的输入基本都是2D数据，没有集成更通用的3D物理世界。
此外，现有的模型通过学习「感知到动作的直接映射」来进行动作预测，忽略了世界的动态性，以及动作和动态之间的关系。
相比之下，人类在思考时会引入世界模型，可以描绘除对未来情景的想象，从而对下一步的行动进行规划。
为此，来自马萨诸塞州大学阿默斯特分校、MIT等机构的研究人员提出了3D-VLA模型，通过引入一类全新的具身基础模型（embodied foundation models），可以根据生成的世界模型无缝连接3D感知、推理和行动。项目主页：https://vis-www.cs.umass.edu/3dvla/
论文地址：https://arxiv.org/abs/2403.09631
具体而言，3D-VLA构建在基于3D的大型语言模型（LLM）之上，并引入一组交互token来参与具

原文链接：3D版Sora来了？UMass、MIT等提出3D世界模型，具身智能机器人实现新里程碑