原标题:真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!
文章来源:新智元
内容字数:7998字
银河通用机器人发布全球首个基于仿真合成大数据的具身抓取大模型GraspVLA
本文总结了银河通用机器人发布的全球首个端到端具身抓取基础大模型GraspVLA 的核心要点。该模型完全基于仿真合成大数据进行预训练,展现出比现有模型更强大的泛化能力和真实场景实用潜力,引发了业界广泛关注。
1. GraspVLA模型的核心突破
GraspVLA克服了具身智能领域长期面临的“数据瓶颈”难题。传统方法依赖昂贵且稀缺的真实世界机器人数据,而GraspVLA采用大规模仿真合成数据进行预训练,极大降低了数据成本和采集时间,并提高了数据覆盖率。这套合成数据生产管线在一周内即可生成十亿级数据集。
2. 七大泛化“金标准”
GraspVLA团队总结了七大具身基础模型泛化“金标准”,涵盖光照、干扰物、平面位置、高度、背景、物体类别以及闭环能力等方面。GraspVLA在这些方面都展现出优异的泛化能力,超越了现有模型如OpenVLA、π0、RT-2和RDT。
3. GraspVLA的惊艳表现
文章通过视频展示了GraspVLA在各种极端条件下的抓取能力,包括极端光照条件、动态变化的背景、物体在不同高度和位置的抓取,以及在动态干扰下的稳定性。即使面对从未在训练数据现的新物体,GraspVLA也能凭借互联网图文数据联合预训练实现零样本抓取。
4. 基座大模型属性:快速对齐新需求
GraspVLA展现了基座大模型的另一重要属性:快速对齐新需求。通过少量样本数据,GraspVLA就能快速学习新的任务规范,例如按顺序抓取商品,识别工业专用零件,以及满足用户在家庭场景中的个性化偏好。这表明GraspVLA能够快速适应不同场景和用户需求。
5. 合成大数据驱动的VLA预训练新范式
GraspVLA的成功,为具身智能领域开创了合成大数据驱动的VLA预训练新范式。这种方法有望取代高成本的人工数据采集方案,推动具身大模型的快速发展。文章还提到了银河通用在导航VLA模型上的研究进展,预示着未来将有更多基于仿真合成数据的具身智能模型问世。
6. 未来展望
银河通用计划将继续沿着仿真合成数据预训练的路线,开发融合更多技能的全能大模型,最终目标是实现具身智能领域的突破,让机器人能够在各种复杂任务中自主执行,拥有更强的泛化能力。这与英伟达对人形机器人发展的期盼不谋而合,也体现了科技巨头对具身智能领域的重视。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。