让无人机飞得更加平稳!
清华大学团队SimpleFlight:解决强化学习无人机控制Sim2Real难题
机器之心AIxiv专栏报道了清华大学高能效计算实验室的一项突破性研究成果:SimpleFlight框架。该框架解决了强化学习(RL)策略在无人机控制中难以从仿真环境零样本泛化到真实世界的难题,在轨迹跟踪误差上比现有RL基线方法降低了50%以上。
1. 背景与挑战
传统的无人机控制方法(如PID控制器和MPC)在灵活性方面存在局限。强化学习因其直接将观测映射为动作的能力,展现出巨大的潜力,但“Sim2Real”鸿沟一直是其应用的瓶颈。如何训练出无需额外微调即可在真实环境中部署的鲁棒RL策略,是研究者们面临的挑战。
2. SimpleFlight框架
清华大学团队提出的SimpleFlight框架,集成五大技术,基于PPO算法,有效解决了上述难题。该框架在开源微型四旋翼无人机Crazyflie 2.1和团队自制的250mm轴距四旋翼无人机上进行了测试,取得了显著成果。
3. 实验结果
实验使用了平滑轨迹(八字形、随机多项式)和不可行轨迹(五角星、随机之字形)两种类型的基准轨迹。SimpleFlight在所有基准轨迹上均取得最佳性能,成功率100%,轨迹跟踪误差降低了50%以上,并且无需任何微调。
4. SimpleFlight的五大核心技术
SimpleFlight的成功归功于以下五大关键因素:
- 输入空间设计:采用相对位姿误差、速度和旋转矩阵作为策略网络输入,并使用旋转矩阵而非四元数。
- 奖励设计:将时间向量添加到价值网络输入,并使用连续动作差异的正则化作为平滑度奖励。
- 训练技术:使用系统辨识校准关键动力学参数,谨慎选择性地应用域随机化,并使用较大的batch size。
- 高效仿真平台:基于NVIDIA Isaac Sim搭建的OmniDrones仿真平台,可实现每秒超过10^5步的仿真速度。
- CTBR指令:使用collective thrust and body rates (CTBR)作为策略输出动作。
5. 结论与意义
SimpleFlight并非依赖于新的算法或复杂的架构,其意义在于提供了一套关键训练因素的集合,可轻松集成到现有的四旋翼无人机控制方法中,帮助研究者和开发者进一步优化控制性能。该研究为强化学习在无人机控制领域的实际应用提供了重要的参考。
论文链接:https://arxiv.org/abs/2412.11764
开源代码及模型项目网站:https://sites.google.com/view/simpleflight
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...