33亿参数的VLA模型在大多数任务上可达 50%-100% 成功率。
原标题:Sergey Levine :机器人基础模型将取代其他通用基础模型丨DAI 2024
文章来源:AI科技评论
内容字数:25392字
具身智能大模型:通用性优势与未来发展
本文总结了UC Berkeley Sergey Levine教授在第六届国际分布式人工智能会议(DAI 2024)上关于通用机器人基础模型的演讲要点,探讨了具身智能大模型的通用性优势及其未来发展方向。
1. 通用机器人基础模型的性
Levine教授指出,过去人工智能领域采用的是针对特定任务训练专用模型的方法。而如今,通用模型的兴起,特别是大型语言模型(LLM)的成功,启示了在机器人领域采用类似的通用性思路。通过收集大量不同机器人执行各种任务的数据,训练一个通用机器人基础模型,可以显著提高模型的泛化能力和效率。这将克服目前机器人领域数据不足的难题,并随着机器人实际部署而不断提升模型性能。
2. 基于扩散的π0通用机器人模型
Levine教授介绍了其团队开发的π0模型,这是一个集成视觉-语言-动作(VLA)的33亿参数通用机器人基础模型。该模型通过预训练(10,000小时数据,7种机器人,68种任务)和任务微调两个阶段进行训练,在大多数任务上实现了50%-100%的成功率。π0模型采用了一种更适应机器人控制的架构,结合了扩散模型来输出高频连续动作,并能处理不同形态的机器人。在复杂任务(如叠衣服、组装盒子)中,高质量的后期训练数据至关重要,可以进一步提升模型性能。
3. 推理与强化学习的结合
演讲中还介绍了通过多步推理提升VLA模型泛化能力的研究。通过引入中间推理步骤,模型能够更好地理解任务要求,提高成功率。实验结果显示,在具有挑战性的泛化任务中,这种方法使OpenVLA的绝对成功率提高了28%。此外,利用强化学习(RL)进行微调,可以获得更鲁棒、更快速的任务执行策略。RLDG方法通过使用强化学习生成的高质量训练数据来微调机器人通用基础模型,相比传统的人类示范数据训练方法可以获得更好的性能和泛化能力。
4. 自主学习与未来展望
最后,Levine教授介绍了SOAR项目,该项目旨在通过自主学习,在没有人类监督的情况下提升机器人基础模型。通过视觉语言模型生成任务,并利用生成的图像数据进行模型微调,实现了显著的性能提升。这表明,未来机器人基础模型可以依靠自主学习不断提升自身能力,无需持续的人类干预。
总而言之,Levine教授的演讲展示了通用机器人基础模型的巨大潜力,以及通过结合推理、强化学习和自主学习等技术进一步提升模型性能的途径。这为具身智能的发展指明了方向,预示着未来机器人将拥有更强的泛化能力和更广泛的应用。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。