Cosmos-Reason1

AI工具1年前 (2025)更新 AI工具集

Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型

Cosmos-Reason1

Cosmos-Reason1 是 NVIDIA 推出的一系列先进的多模态大型语言模型，旨在通过物理常识和具身推理深入理解物理世界。该系列包含两个不同规模的模型：Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。它们能够基于视觉输入感知环境，并通过长链思考生成自然语言的回答，提供解释性见解和具身决策（例如，下一步行动）。

Cosmos-Reason1是什么

Cosmos-Reason1 是 NVIDIA 开发的多模态大型语言模型系列，专注于物理常识和具身推理，以更好地理解物理世界。该系列包括两个版本：Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。模型通过视觉输入感知周围世界，并在经过复杂推理后生成自然语言响应，涵盖深入的解释和具身行动决策。其训练过程分为四个主要阶段：视觉预训练、通用监督微调（SFT）、物理 AI 微调及强化学习。Cosmos-Reason1 在物理常识和具身推理的基准测试中均展现出卓越性能，得益于精心设计的数据和强化学习策略。

主要功能

物理常识理解：掌握物理世界的基本原理，包括空间、时间及基础物理定律，从而判断的合理性。
具身推理：为具身代理（如机器人和自动驾驶车辆）提供基于物理常识的合理决策和行动计划。
长链思考：通过长链思考（chain-of-thought reasoning）生成详细的推理过程，以增强决策的透明性和可解释性。
多模态输入处理：支持视频输入，结合视觉信息与语言指令进行推理，并生成自然语言回答。

技术原理

层次化本体论：构建物理常识的层次化本体论，涵盖空间、时间和基础物理三个主要类别，并细分为16个子类别。
二维本体论：为具身推理专门设计的二维本体论，涵盖五种具身代理的四种核心推理能力。
多模态架构：采用解码器主导的多模态架构，处理视觉输入后与文本嵌入对齐，输入到大型语言模型中。
四个训练阶段：
- 视觉预训练：对视觉与文本模态进行对齐。
- 通用监督微调（SFT）：提升模型在一般视觉语言任务中的表现。
- 物理AI微调：使用专门数据增强物理常识及具身推理能力。
- 物理AI强化学习（RL）：通过规则化奖励进一步优化模型的推理性能。
强化学习：设计基于多选题的规则化奖励机制，通过强化学习提升模型在物理常识和具身推理任务的表现。