百万真机数据集的终极目标是打造硬件加系统的 AI 次方模式,构建真正智能的端到端具身系统。
原标题:香港大学李弘扬:「2025年具身智能新一代闭环智能系统」迫在眉睫丨具身先锋十人谈
文章来源:AI科技评论
内容字数:15752字
AgiBot World:百万真机数据集推动具身智能发展
本文总结了李弘扬博士团队关于AgiBot World百万真机数据集及其对具身智能领域影响的访谈内容。该数据集旨在打造硬件加系统的AI次方模式,构建真正智能的端到端具身系统,并推动该领域的“ImageNet时刻”。
1. 从自动驾驶到具身智能:经验的迁移与挑战
李弘扬博士团队最初专注于端到端自动驾驶算法研究,其UniAD项目获得CVPR 2023最佳论文。 他们发现自动驾驶和机器人领域存在许多共通之处,例如感知、预测和控制的构成以及与环境交互的方式。 然而,将端到端训练范式迁移到机器人领域也面临挑战,例如机器人任务的度更高,数据采集难度更大。团队提出了“数据金字塔策略”,结合仿真数据、网络数据和真机数据来解决数据问题。
2. AgiBot World:打造具身智能的ImageNet时刻
AgiBot World数据集是团队与智元机器人合作的成果,其最大亮点在于灵巧手操作、视触觉多模态信号和多机协同。与其他数据集相比,AgiBot World的数据更具质量和统一性,物理形态趋于统一,这对于算法的泛化能力至关重要。该数据集旨在解决具身智能的两个核心问题:实现真正智能化和验证Scaling Law。团队计划在2025年3月发布完整数据集,并在CVPR、IROS等场合举办挑战赛,促进学术界和产业界的共同发展。
3. 数据采集与开源的意义
AgiBot World的数据采集过程借鉴了亚马逊SageMaker和《Human-in-the-Loop Machine Learning》中的经验,注重数据质量的把控。 团队有意制造干扰来考察算法的鲁棒性。开源AgiBot World的初衷是建立类似ImageNet的评测基准,促进公平的算法比较,并降低高质量真机数据采集的门槛,推动整个领域的进步。
4. 未来研究方向与挑战
团队的下一步研究计划包括扩展AgiBot World数据集到百万级别,验证Scaling Law,并举办挑战赛。 他们认为,具身智能领域模型训练会遵循Scaling Law,但需要解决数据多样性、数据分布、算法迁移学习和投入产出比等问题。除了数据集,团队还在研究Whole Body Control等问题,并强调了硬件创新在推动具身智能发展中的重要性,特别指出材料科学在传感器和硬件方面的突破性意义。
5. 总结
AgiBot World百万真机数据集的发布,标志着具身智能领域发展进入一个新的阶段。 该数据集的开源以及团队后续的研究工作,将有力推动该领域的技术进步和产业发展,有望实现具身智能领域的“ImageNet时刻”。
联系作者
文章来源:AI科技评论
作者微信:
作者简介:雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。