3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑

AIGC动态8个月前发布 新智元
7 0 0

3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑

AIGC动态欢迎阅读

原标题:3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑
关键字:模型,研究人员,机器人,数据,场景
文章来源:新智元
内容字数:10285字

内容摘要:


新智元报道编辑:LRS 好困
【新智元导读】具身基础模型突破2D,全新生成式视觉-语言-行动模型3D-VLA,在多项任务中显著提高了推理、多模态生成和规划的能力。在最近的研究中,视觉-语言-动作(VLA,vision-language-action)模型的输入基本都是2D数据,没有集成更通用的3D物理世界。
此外,现有的模型通过学习「感知到动作的直接映射」来进行动作预测,忽略了世界的动态性,以及动作和动态之间的关系。
相比之下,人类在思考时会引入世界模型,可以描绘除对未来情景的想象,从而对下一步的行动进行规划。
为此,来自马萨诸塞州大学阿默斯特分校、MIT等机构的研究人员提出了3D-VLA模型,通过引入一类全新的具身基础模型(embodied foundation models),可以根据生成的世界模型无缝连接3D感知、推理和行动。项目主页:https://vis-www.cs.umass.edu/3dvla/
论文地址:https://arxiv.org/abs/2403.09631
具体而言,3D-VLA构建在基于3D的大型语言模型(LLM)之上,并引入一组交互token来参与具


原文链接:3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...