UniAct – 清华、商汤、北大、上海AI Lab共同推出的具身基础模型框架
UniAct是一种创新的具身基础模型框架,旨在解决不同机器人之间行为异构性的问题。通过学习普适行为,UniAct捕捉到不同机器人共享的基本行为特征,从而消除因物理结构和控制接口差异所导致的行为不一致性。
UniAct是什么
UniAct是一种新颖的具身基础模型框架,旨在解决不同机器人之间的行为异构性。通过提取通用行为,UniAct能够捕捉不同机器人共享的原子行为特征,从而消除因物理形态和控制接口差异造成的行为不一致。UniAct的架构由通用行为提取器、通用行为空间和异构解码器组成。通用行为提取器基于视觉语言模型,通过观察和任务目标提取通用行为;通用行为空间采用向量量化码本形式,每个向量代表一种原子行为;异构解码器将通用行为转换为特定机器人的控制信号。
UniAct的主要功能
- 通用动作编码:UniAct将不同机器人的原子行为(例如“移动到目标位置”或“避开障碍物”)通过向量量化形成一个通用的代码库,每个token代表一种可跨平台共享的通用技能。
- 轻量化架构与高效性能:UniAct-0.5B模型仅需0.5亿参数,在实际与模拟环境的任务测试中,其表现已超越参数达到14亿的OpenVLA模型。
- 快速适应新环境和机器人:UniAct只需50条专用示教数据即可完成模型在新环境中的微调,能够迅速适应新机器人和控制接口。通过添加新的轻量级解码器,UniAct可轻松扩展至新的机器人平台。
- 跨领域数据利用:UniAct通过通用行为空间,能够更好地利用跨领域数据进行训练,在不同机器人和环境中实现更高效的泛化。
- 一致的行为模式:在不同的部署场景和机器人类型中,同一通用动作能够表现出一致的行为模式。这为具身智能体的控制提供了一种便捷的新方法,操作人员只需从代码库中选择相应的通用动作,即可指挥不同类型的机器人完成任务。
UniAct的技术原理
- 通用动作空间(Universal Action Space):UniAct通过向量量化构建了一个离散的通用动作空间。该空间被设计为一个向量化的代码库,其中每个向量嵌入代表一种通用的原子行为。这些行为是不同机器人在不同情境下共享的基本行为模式,例如“移动到目标位置”或“避开障碍物”。通过这种方式,UniAct能够统一表示不同机器人的动作,消除动作空间的异构性。
- 通用动作提取器(Universal Action Extractor):UniAct基于视觉语言模型的通用动作提取器来识别和提取通用动作。提取器在给定观察结果和任务目标的情况下,输出选择通用动作的概率。通过这种方式,UniAct从复杂的视觉和语言输入中提取与任务进展直接相关的通用动作,确保动作空间的纯净性和一致性。
- 异质解码器(Heterogeneous Decoders):为了将通用动作翻译为特定机器人的可执行命令,UniAct引入了异质解码器。这些解码器专为不同的机器人平台设计,能够根据机器人的具体特征将通用动作转换为具体的控制信号,从而实现高效的跨平台控制。
- 轻量化架构与高效训练:UniAct采用轻量化的模型架构,即使在低参数设置下也能保持良好的性能。其训练过程通过行为克隆损失进行,结合适当的损失函数(如离散动作的交叉熵和连续动作的均方误差),使UniAct能够快速适应新环境和新机器人。
UniAct的项目地址
- 项目官网:https://2toinf.github.io/UniAct/
- Github仓库:https://github.com/2toinf/UniAct
- arXiv技术论文:https://arxiv.org/pdf/2501.10105
UniAct的应用场景
- 自动驾驶与智能交通:UniAct的技术原理和架构在自动驾驶领域同样适用。通过学习通用的驾驶行为模式,UniAct能够为自动驾驶系统提供更高效的动作规划和控制。
- 医疗机器人:在医疗机器人领域,UniAct可应用于辅助康复或手术机器人。通过通用动作空间,医疗机器人能够更灵活地适应不同患者的需求和手术场景。
- 工业自动化:在工业自动化领域,UniAct可以用于控制多种工业机器人,优化生产流程。通过快速适应不同机器人平台和任务需求,UniAct显著提升了工业生产的灵活性和效率。
- 智能家居与服务机器人:UniAct同样适用于智能家居和家庭服务机器人领域。通过通用动作空间,服务机器人能够更自然地与人类交互,完成各种家务任务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...