原标题:UC伯克利等提出具身智能「动作Tokenizer」,效率飙升5倍!
文章来源:新智元
内容字数:4818字
高效训练机器人Transformer:FAST动作Tokenizer的突破
本文总结了Physical Intelligence团队提出的FAST动作Tokenizer,一种用于高效训练Transformer控制机器人的新方法。该方法显著缩短了训练时间,并提升了机器人完成复杂任务的能力,标志着机器人自回归Transformer训练领域的重要进展。
传统方法的局限性
传统的机器人动作表示方法,例如简单的离散划分,在处理精细、高频控制任务时存在局限性。虽然扩散模型或流匹配方法(例如π0模型)能取得更好的性能,但其训练时间非常长。
FAST Tokenizer的核心思想
FAST旨在解决上述问题,它结合了离散余弦变换(DCT)和字节对编码(BPE)两种技术。DCT是一种高效的压缩算法,用于压缩原始动作序列;BPE则进一步压缩DCT矩阵,将动作序列转换成数量更少、更密集的动作Token。这种方法显著提高了训练效率,将动作Token数量减少了10倍以上。
FAST的具体步骤
FAST的工作流程包括:1. 对原始动作序列进行归一化;2. 对每个动作维度应用DCT变换;3. 使用BPE对DCT矩阵进行压缩,生成最终的动作Token。通过这种方式,FAST将原始动作序列转化为适合Transformer处理的离散表示。
FAST+:通用的机器人动作Tokenizer
基于FAST,研究者还开发了FAST+,这是一个通用的机器人动作Tokenizer,它在100万个真实机器人动作序列上进行训练,能够高效地处理各种类型的机器人动作数据,包括单臂、双臂和移动机器人。
π0-FAST:高效的机器人控制策略
将FAST与π0 VLA模型结合,研究者训练出了π0-FAST模型。实验结果表明,π0-FAST在完成折叠衣物、收拾餐桌等复杂精细任务上的表现与最先进的扩散模型相当,但训练时间缩短了5倍。这表明FAST显著提升了自回归Transformer在机器人控制领域的训练效率。
DROID数据集上的突破
利用π0-FAST,研究者首次在DROID数据集上训练出了一个通用的机器人控制策略,该策略能够在新的环境中零样本执行多种操作任务,这在之前是无法实现的。
未来展望
虽然π0-FAST取得了显著进展,但其推理速度仍有待提高。研究者认为,借鉴LLM中加速离散自回归Transformer模型推理的技术,可以进一步提升VLA模型的推理效率。
总而言之,FAST动作Tokenizer为高效训练机器人Transformer提供了新的思路,其在压缩率、训练速度和任务执行能力方面都取得了显著的突破,为机器人控制技术的未来发展带来了新的可能性。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。