Figure 首个 VLA 模型,有效实现人形机器人上半身高效控制。
原标题:与 Open AI 分手后,Figure 推出具身模型 Helix,多个机器人一同做家务
文章来源:AI科技评论
内容字数:5235字
Figure发布首个自研具身模型Helix,实现人形机器人上半身高效控制
本文总结了Figure公司发布的其首个自研具身模型Helix的要点。Helix是一个通用的“视觉-语言-感知”(VLA)模型,实现了人形机器人上半身的高效控制,并展现出多机器人协作能力和强大的泛化能力。
Helix模型的核心功能与优势
Helix模型的核心在于其对人形机器人上半身(包括手腕、躯干、头部和各个手指)的200Hz高速率连续控制。它实现了以下几个方面的突破:
- 整个上身控制:首次实现对人形机器人上半身进行高速率连续控制的VLA模型。
- 多机器人协作:首个同时在两个机器人上运行的VLA模型,能够进行多机器人协作完成任务。
- 强大的泛化能力:只需简单的自然语言指令,即可拾取各种小型家居用品,包括数千种从未见过的物品。
- 单一神经网络:使用一组神经网络权重学习所有行为,无需针对特定任务进行微调。
- 商业化准备:可在嵌入式低功耗GPU上运行,可立即进行商业部署。
Helix在控制机器人上半身时,能够协调35个度,并巧妙地处理头部和躯干带来的挑战,保证机器人动作的流畅性和稳定性。
“系统1、系统2”架构
Helix采用了一种创新的“系统1、系统2”VLA模型架构,结合了通用性和速度两个关键因素:
- 系统2 (S2):一个基于互联网预训练的VLM,负责场景理解和语言理解,运行频率为7-9 Hz。
- 系统1 (S1):一个快速反应的视觉策略,将S2的输出转化为200 Hz的精确连续机器人动作。
这种分层架构允许两个系统分别在其最佳时间尺度上运行,S2进行“慢思考”,S2进行“快思考”,实现了高效的控制。
数据效率和未来潜力
Helix仅使用了约500小时的高质量监督数据进行训练,远小于之前的VLA数据集,展现了其极高的数据效率。其强大的泛化能力、高速率、高维度的输出以及简单的架构,为人形机器人在非结构化环境中的应用开辟了新的可能性。Figure表示,Helix可以扩展到更具挑战性的动作空间,实现更复杂的任务。
总而言之,Figure的Helix模型在人形机器人控制领域取得了显著进展,其高效的控制能力、强大的泛化能力和多机器人协作能力,预示着人形机器人技术迈向更实用、更智能的未来。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...