黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量

AI 的下一个前沿是物理。

黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量

原标题:黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量
文章来源:机器之心
内容字数:10481字

英伟达发布Cosmos:物理AI的下一个前沿

近日,英伟达在CES发布会上推出了Cosmos平台,标志着AI下一个前沿——物理AI的到来。Cosmos是一个世界模型平台,提供一系列开源、开放权重的视频世界模型,参数量从4B到14B不等,旨在为机器人、自动驾驶等领域生成大量照片级真实、基于物理的合成数据,解决数据不足的问题。

1. Cosmos平台的核心功能

Cosmos平台一次性发布了8个模型,这些模型基于2000万小时的视频数据进行训练,分为扩散模型(连续token)和自回归模型(离散token)两类,支持文本生成视频和文本+视频生成视频两种方式。已经有许多领先的机器人和汽车公司成为Cosmos的首批用户,例如1X、Agile Robots、Agility和Uber等。

2. 数据处理与模型训练

Cosmos平台的数据处理流程包括视频数据整理pipeline,该pipeline从海量视频中提取高质量片段,并利用视觉语言模型(VLM)进行标注。模型训练采用基于Transformer的扩散模型和自回归模型两种方法,通过将复杂的视频生成问题分解成更容易解决的子问题来提高效率。 训练过程使用了由10,000个NVIDIA H100 GPU组成的集群,历时三个月。

3. 模型架构与Tokenizer

Cosmos平台的模型架构基于Transformer,并针对视频生成任务进行了改进,例如添加了3D感知的位置嵌入和交叉注意力机制。Tokenizer是关键组件,将视频数据转换为token序列,Cosmos平台提供了连续型和离散型两种Tokenizer,实现了高压缩率和高质量的视觉重建。

4. 后训练与安全机制

预训练的WFM可以进行后训练,以适应不同的物理AI任务,例如相机姿态控制、机器人控制和自动驾驶。为了确保安全,Cosmos平台还配备了包括前置和后置防护系统在内的安全机制,用于阻止有害输入和输出。

5. 华人学者的贡献

值得注意的是,Cosmos平台的技术报告显示,华人学者在该项目中做出了大量贡献,一些团队甚至全部由华人组成。这凸显了华人研究人员在AI领域的重要作用。

6. 开源与未来展望

Cosmos模型和相关资源已公开发布,包括预训练的世界基础模型、Tokenizer和训练脚本等,这将推动物理AI领域的快速发展。英伟达希望通过Cosmos平台,让物理AI技术普及化,让更多开发者能够受益。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...