RynnBrain

AI工具9小时前更新 AI工具集
2 0 0

RynnBrain – 阿里达摩院开源的具身智能大脑基础模型

RynnBrain,这一由阿里巴巴达摩院倾力打造的开源具身智能大脑基础模型,正以前所未有的方式赋能机器人,赋予它们珍贵且强大的时空记忆与物理空间推理能力。该模型构建于强大的Qwen3-VL之上,并巧妙运用了自研的RynnScale架构,其训练数据量更是达到了惊人的两千余万对。RynnBrain的横空出世,不仅在16项具身智能的公开评测中拔得头筹,刷新了多项记录(SOTA),更在诸多方面超越了谷歌Gemini Robotics ER 1.5等业界顶尖模型。此次,阿里一次性开源了7个全系列模型,其中尤为瞩目的是业界首个采用30B MoE架构的具身模型,它仅需3B的激活参数就能实现高效推理,使得机器人的动作指令执行更加迅速流畅,为执行复杂的移动操作及长期的任务规划提供了“大脑”级的核心支持。

RynnBrain的核心能力

  • 洞悉时空的记忆:机器人能够在其完整过往的记忆中精准定位物体及其目标区域,并能预测物体未来的轨迹,从而实现对全局时空信息的追溯与回放。
  • 精妙的物理空间推理:模型通过交错运用文本与空间定位的推理策略,确保了推理过程始终紧密锚定于真实的物理环境,显著削弱了信息“幻觉”的出现。
  • 无缝衔接的任务连续性:当机器人正在执行一项任务(任务A)时被中断,转而去执行另一项任务(任务B),它能够清晰地记忆任务A的时间与空间状态。一旦任务B完成,机器人便能无缝地续接之前未竟的任务A。
  • 全方位的多维度感知:该模型集成了环境感知、对象推理、第一人称视角下的视觉问答、空间推理以及轨迹预测等共计16项关键的具身智能能力。
  • 便捷高效的快速拓展:基于这一强大的基础模型,研究人员仅需几百条数据即可进行微调,便能训练出专门针对导航、路径规划、动作执行等各类具身任务的专属模型。

RynnBrain的技术精髓

  • 多模态信息的深度融合架构:RynnBrain采用了端到端的全方位多模态架构,将第一人称视角下的视频流、自然语言指令以及物理环境的各项信息进行统一编码。通过跨模态的注意力机制,实现了视觉与语言信息的精准对齐,并整合了物理约束模块。这使得其推理过程既能遵循统计规律,又能充分考虑物体的“可用性”(affordance)、几何关系等物理世界的内在法则,最终输出一系列可执行的动作序列。
  • 以自我为中心的认知体系:针对动态变化的第一人称视角,模型运用了视频Transformer技术来处理长序列的时间信息,从而建立跨帧之间的一致性。通过构建三维场景图或神经辐射场,模型能够建立可查询的空间记忆库,支持对历史观测数据的回溯推理,精准解答涉及时空关系的问题。
  • 精准的时空定位能力:RynnBrain将历史视频编码成“记忆”向量(episodic memory vectors),支持基于自然语言的时序检索与关键帧的精确锁定。结合视觉接地(visual grounding)技术,模型能将文本指令映射到图像中的特定区域,并通过空间坐标回归技术输出三维位置信息,甚至能够预测轨迹,为预测性规划提供有力支持。
  • 深刻的物理感知与规划机制:与直接预测动作的视觉语言模型(VLA)不同,RynnBrain显式地引入了物理世界模型。它能够提取物体的可用性,验证动作的可行性,并利用层次化规划器将高级意图分解为带有条件分支的低级动作,从而确保复杂且长程任务的成功率。
  • 灵活多样的模型变体:RynnBrain提供了两种主要的架构类型:Dense(2B/8B)和MoE(30B-A3B)。Dense架构的全参数激活模式适用于实时边缘部署;而MoE架构的稀疏激活则在兼顾模型容量的同时,显著降低了推理成本。此外,针对规划、导航、空间推理等特定任务,还提供了专门优化的版本。

RynnBrain的获取途径

  • 官方项目网站:https://alibaba-damo-academy.github.io/RynnBrain.github.io/
  • GitHub代码仓库:https://github.com/alibaba-damo-academy/RynnBrain
  • HuggingFace模型集合:https://huggingface.co/collections/Alibaba-DAMO-Academy/rynnbrain

RynnBrain的广泛应用前景

  • 工业自动化制造:该模型能够胜任复杂装配线上多步骤的操作任务,并在任务中断后实现自动续接,极大地提升了生产线的柔性化水平。
  • 智能家居服务:作为智能管家,RynnBrain能够记住家中物品的精确摆放位置,执行跨房间的取物指令,并能预测家庭成员的移动轨迹,主动进行避让,提供更加贴心的服务。
  • 医疗护理助手:在医疗场景中,机器人可以辅助记忆患者的位置和状态,在紧急中断后能迅速恢复护理流程,并精准地递送医疗器械。
  • 物流仓储优化:在动态变化的货架环境中,叉车与AGV(自动导引运输车)能够实时更新其环境记忆,预测轨迹,有效避免碰撞,提高仓储效率。
  • 科研探索与应急响应:对于野外考察机器人而言,RynnBrain能够记录采样点的时空信息,支持长期的科考任务。在灾难救援场景下,它还能协助进行搜索定位,为救援行动提供关键信息。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...