ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

AIGC动态欢迎阅读

原标题：ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告
关键字：智能,视觉,语言,模型,表征
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

近年来，以谷歌RT系列为代表的视觉-语言-控制模型（VLCM，Vision-Language-Control Model）受到广泛关注。VLCM 智能体可以通过视觉理解环境，并执行人类语言所描述的任意任务，展现出了极强的 zero-shot 泛化能力。
相较于语言模型（LM），只考虑单一语言模态，视觉-语言模型（VLM）需要考虑视觉和语言两个模态，而视觉-语言-控制模型（VLCM）则需要考虑视觉、语言和控制三个模态，在训练需要海量的示教数据。因此，数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。
为了解决数据稀缺的问题，一个通用的解决方案是表征预训练。然而，训练这样的表征是非常困难的，因为对于机器人的决策而言，一个高度抽象的语言指令所描述的是一种动态的变化过程。所以，传统多模态表征预训练需要考虑的是语言和单帧图片的对齐，而具身智能中的多模态表征预训练需要解决语言和视频轨迹的对齐。
针对当前问题，清华大学AIR与商汤研究院等提出一种decision-centric的多模态表征预训练方法DecisionNCE，清华大学智能产业研究院（AIR）四年级博士生李健雄为论文一作。与Deci

原文链接：ICML’24研讨会杰出论文奖！清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告