Thinker

AI工具30分钟前更新 AI工具集
0 0 0

Thinker – 优必选开源的具身智能视觉语言模型

Thinker:赋能机器人走向“知行合一”的具身智能视觉语言基座

在人工智能领域,如何让机器人真正理解物理世界并高效执行复杂任务,一直是亟待解决的难题。优必选(UBTECH)推出的Thinker模型,正是为这一僵局而生。作为一款专为机器人场景量身打造的具身智能视觉语言大模型,Thinker不仅在多项权威基准测试中展现出卓越性能,更以其强大的认知能力,正在重塑机器人技术的应用边界。

Thinker:一个40亿参数的“全能大脑”

Thinker模型的核心优势在于其卓越的综合能力。尽管参数规模仅为40亿,但在九项关键基准测试中,它已傲视群雄,拔得头筹。它成功弥补了传统机器人“有想法却无法精准执行”的短板,其核心能力横跨任务规划、空间理解、时间推理和视觉定位四大维度。这一成就的背后,是模型基于海量原始数据(高达20亿条)经过严格筛选和提炼,最终形成了1000万条高质量训练样本。更值得一提的是,Thinker采用了创新的自动化标注体系,将人工干预降至1%以下,极大地提升了效率并降低了成本。目前,Thinker已在Walker S2人形机器人上得到实际应用,实现了高达99.99%的工业场景作业准确率,为具身智能技术的普及奠定了坚实基础。

Thinker的核心功能解析

Thinker的强大能力体现在其对复杂环境和指令的深度理解上:

  • 任务规划的艺术:它能够洞察复杂的人类指令,并结合对机器人当前状态的记忆,预测未来的演变。基于此,Thinker能将宏大的长期目标拆解为一系列清晰、可执行的子任务序列。
  • 精准的空间洞察:模型构建了一个以自身为中心的坐标系,以摄像头为原点,精确定义三维空间中所有物体的相对位置和姿态。这种“自我中心”的视角确保了机器人操作的精准性。
  • 时间维度的推理:Thinker能够从历史视频信息中提取关键,并将这些过往经验与当前的指令相结合,做出合乎时序逻辑的决策。
  • 视觉定位的精细化:通过边界框和精确点坐标的描述,模型为机器人的抓取和交互动作提供了高度精确的空间指引。

支撑Thinker的底层技术逻辑

Thinker的性能源于其精心设计的技术框架和训练策略:

  • 数据精炼流水线:面对海量且充满噪声的原始数据,Thinker采用了一套精密的筛选机制。它首先进行广度筛选,随后利用大模型进行多维度质量评估,最终提炼出高价值的训练数据。自动化标注体系的引入,实现了效率的百倍提升和成本的99%削减。
  • 统一的架构设计:模型采用了经典的视觉语言架构,集成了文本分词器、视觉编码器、多层感知机对齐层和语言模型骨干。这种结构实现了视觉、语言与时间的统一表征,是跨模态推理能力的基础。
  • 两阶段的训练精调:第一阶段侧重于通用感知和推理能力的建立,通过在多领域数据集上进行微调,并引入视频最后一帧作为辅助输入以强化视频理解。第二阶段则聚焦于工业场景的适应性,通过监督微调让模型掌握序列依赖、处理多样的物体布局并进行反馈修正。
  • 关键创新点:针对机器人视角切换带来的信息丢失问题,Thinker创新性地在视频理解训练中联合输入关键帧与完整视频,显著提升了模型的时序感知能力。同时,通过高质量数据和任务导向采样,在4B参数的限制下,实现了优于10B以上模型的性能表现。

Thinker的广阔应用前景

Thinker的出现,为机器人应用打开了新的篇章:

  • 智能制造的柔性化:在工业生产线上,Thinker驱动的Walker S2已能高效完成搬运、分拣等任务,其近乎完美的作业准确率,有效弥补了传统自动化设备的柔性不足。
  • 物流仓储的升级:面对复杂多变的仓库环境和SKU的频繁更迭,Thinker使机器人能够自主进行货物识别、路径规划和精准抓取。
  • 商业服务的新体验:在商场或展厅,Thinker赋能的机器人能提供流畅的引导、讲解和互动服务,实现更自然的交互。
  • 复杂操作的攻坚:对于需要长期规划和精细空间感知的任务,如设备巡检或零部件装配,Thinker提供了可靠的认知支撑。
  • 群体智能的基石:Thinker作为认知核心,支撑着优必选的“群脑网络”和Co-Agent协作智能体,促进了多机器人间的协同决策与自主进化。
阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...