清华开源的双臂机器人扩散基础模型

AI工具2年前 (2024)发布 AI工具集

产品名称：RDT
产品简介：RDT（Robotics Diffusion Transformer）是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量，能在无需人类操控的情况下，自主完成复杂任务，如调酒和遛狗。
详细介绍：

RDT是什么

RDT（Robotics Diffusion Transformer）是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量，能在无需人类操控的情况下，自主完成复杂任务，如调酒和遛狗。RDT基于模仿学习人类动作，展现出强大的泛化能力和操作精度，能处理未见过的物体和场景。清华团队已将RDT的代码、模型和训练数据集开源，推动机器人技术的发展和应用。

清华开源的双臂机器人扩散基础模型

RDT的主要功能

双臂协调操作：指挥机器人的双臂协同工作，完成复杂的物理任务，例如调酒和遛狗。
自主任务执行：无需人类直接操控，自主完成之前未见过的全新任务。
高精确度操作：RDT能进行精确的操作，如控制机器狗走直线，需要极高的操作精度。
语言指令理解：理解并遵循人类的自然语言指令，执行相应的动作。
少样本学习：RDT具有强大的学习能力，只需少量演示能学会新技能。

RDT的技术原理

多模态输入编码：RDT结合语言、视觉和动作三种模态，基于不同的编码方式处理输入。
- 动作编码：具有傅里叶特征的多层感知机（MLP）。
- 图片编码：基于经过对齐的SigLIP。
- 语言编码：使用T5-XXL语言模型。
Transformer骨干网络：RDT采用Transformer作为骨干网络，针对机器人操作进行关键修改。
- QKNorm和RMSNorm：缓解传感器失灵导致的极端值问题。
- 非线性MLP解码器：增强对非线性动力学的近似能力。
- 交替注入：平衡图像和文本模态，防止信息淹没。
预训练与微调：RDT在大规模的具身数据集上进行预训练，获得泛化性，基于高质量的双臂微调数据集进行微调，增强双臂操作能力。
统一动作空间：构建统一的动作空间统一不同机器人数据的格式，让模型从不同数据中学习共享的物理规律。
泛化性和操作精度测试：设计挑战性任务，评估RDT的泛化能力和操作精度，确保在实际应用中的有效性。