ICML’24研讨会杰出论文奖!清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

ICML’24研讨会杰出论文奖!清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

AIGC动态欢迎阅读

原标题:ICML’24研讨会杰出论文奖!清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告
关键字:智能,视觉,语言,模型,表征
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


近年来,以谷歌RT系列为代表的视觉-语言-控制模型(VLCM,Vision-Language-Control Model)受到广泛关注。VLCM 智能体可以通过视觉理解环境,并执行人类语言所描述的任意任务,展现出了极强的 zero-shot 泛化能力。
相较于语言模型(LM),只考虑单一语言模态,视觉-语言模型(VLM)需要考虑视觉和语言两个模态,而视觉-语言-控制模型(VLCM)则需要考虑视觉、语言和控制三个模态,在训练需要海量的示教数据。因此,数据的缺乏也是具身智能、机器人学习面临的最严重问题之一。
为了解决数据稀缺的问题,一个通用的解决方案是表征预训练。然而,训练这样的表征是非常困难的,因为对于机器人的决策而言,一个高度抽象的语言指令所描述的是一种动态的变化过程。所以,传统多模态表征预训练需要考虑的是语言和单帧图片的对齐,而具身智能中的多模态表征预训练需要解决语言和视频轨迹的对齐。
针对当前问题,清华大学AIR与商汤研究院等提出一种decision-centric的多模态表征预训练方法DecisionNCE,清华大学智能产业研究院(AIR)四年级博士生李健雄为论文一作。与Deci


原文链接:ICML’24研讨会杰出论文奖!清华AIR&商汤研究院提出全新的具身多模态表征预训练方法 | 讲座预告

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...