空天具身世界模型是通往空天具身智能的必经之路~
原标题:首次提出空天具身智能概念!中科院公开无人机智能体基准套件,加速空天具身世界模型构建
文章来源:智猩猩GenAI
内容字数:10906字
空天具身智能研究:AeroVerse基准套件的构建与评估
本文介绍了中国科学院空天信息研究院和中国科学院大学的研究团队在空天具身智能领域的研究成果,重点在于构建了一个名为AeroVerse的基准套件,用于推动该领域的发展。该套件包含了大规模的无人机第一视角图文数据集、多种下游任务指令集以及自动化评测方法。
研究背景与挑战
研究目标是赋能无人机等空天平台实现自主感知、认知和行动的端到端闭环,构建空天具身世界模型是关键。然而,现有研究主要集中在地面智能体,空天智能体方面存在研究空白,主要挑战包括:无人机具身任务缺乏统一定义;户外3D数据采集难度高;无人机具身数据标注成本高。
核心贡献
研究团队的核心贡献在于:1. 构建了两个大规模数据集:AerialAgent-Ego10k(真实城市无人机第一视角图文数据集)和CyberAgent-Ego500k(虚拟图文姿态对齐数据集);2. 首次明确定义了五个无人机具身下游任务(环境感知、空间推理、导航探索、路径规划和控制),并构建了对应的指令集;3. 开发了一套基于GPT-4的自动化评测方法;4. 使用十多种多模态大模型进行了广泛实验,分析了其在无人机智能体数据集上的表现;5. 发布了AeroVerse基准套件,推动空天具身智能领域发展。
AeroSimulator:空天世界模拟器
为了模拟无人机飞行真实场景,研究团队利用Unreal Engine 4和AirSim搭建了一个模拟器,能够模拟不同的光照条件、季节和气候模式,方便模型训练和真实世界迁移。
数据集构建
AerialAgent-Ego10k数据集包含10,000张高分辨率城市无人机第一视角图像及其详细文本描述。CyberAgent-Ego500k数据集则包含了虚拟环境中的图文姿态对齐数据,用于弥补真实数据不足。
指令集设计
研究团队设计了五个下游任务指令集:SkyAgent-Scene3k(场景感知)、SkyAgent-Reason3k(空间推理)、SkyAgent-Nav3k(导航探索)、SkyAgent-Plan3k(任务规划)和SkyAgent-Act3k(行动决策),这些指令集涵盖了无人机具身任务的各个方面。
模型适配与评估
研究团队选择了十多种2D/3D视觉语言模型进行实验,并使用BLEU、CIDEr、SPICE等传统评测方法以及基于GPT-4的自动化评测方法对模型性能进行了评估。结果显示,GPT-4o模型在大多数任务和场景中表现最佳,但模型在复杂场景(如校园场景)下的泛化能力仍有待提高。
实验分析与讨论
实验结果表明,2D/3D视觉语言模型在无人机智能体任务中具有潜力,但也存在局限性。模型的场景泛化能力和任务泛化能力有待进一步提升。参数数量的增加并不一定与性能的提升成正比。
总而言之,这项研究为空天具身智能领域提供了宝贵的资源和基准,为未来研究提供了方向,也促进了该领域的发展。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。