世界模型有望让物理AI更进一步
原标题:机器人的“ChatGPT时刻”来临?英伟达带火世界模型,国内厂商紧跟而上,谷歌也坐不住了!
文章来源:大数据文摘
内容字数:5817字
2025年:具身智能机器人赛道的“ChatGPT时刻”
2025年伊始,具身智能机器人赛道便迅速升温。英伟达发布的Cosmos世界模型开发平台,以及智元机器人研究院关于机器人4D世界模型的论文,都预示着“世界模型”成为行业焦点。谷歌也从OpenAI挖角,组建新团队加速研究模拟物理世界的人工智能模型,种种迹象表明,机器人领域的“ChatGPT时刻”或许即将到来。
1. 英伟达Cosmos:通用的世界基础模型
英伟达推出的Cosmos旨在帮助开发者构建定制化的世界模型。它是一个通用的世界基础模型(WFM),能够利用文本、图像、视频和动作等数据生成和模拟虚拟世界,准确模拟场景中物体的空间关系及其物理交互。Cosmos采用“先预训练再后训练”的范式,利用大规模数据集进行预训练,再利用较小规模数据集进行微调,从而更高效地构建物理AI系统。其在2000万小时的现实世界数据中训练了9000万亿个token,支持文本到世界或视频到世界的生成,可用于合成数据增强训练数据集,并加速AI代理在虚拟世界的强化学习。
2. 智元机器人研究院的EnerVerse架构
智元机器人研究院针对多模态对齐和数据稀缺问题,提出了EnerVerse架构。这是一个自回归扩散模型,能够在生成未来具身空间的同时引导机器人完成复杂任务。EnerVerse具有卓越的空间生成能力,在机器人动作规划任务中达到最优表现,并能生成高质量合成数据,减少对真实世界数据的依赖,实现模拟与现实的无缝过渡。尤其在长距离机器人操作任务方面表现突出。
3. 行业巨头与初创公司的布局
除了英伟达和智元机器人,其他科技巨头和初创公司也积极布局世界模型领域。OpenAI投资多家机器人公司,谷歌组建新团队研究模拟物理世界的人工智能模型。此外,一些新兴公司如World Labs也致力于世界模型的研究,相信世界模型未来将广泛应用于机器人、自动驾驶等领域。
4. 生成式AI的下一个里程碑
基于互联网数据训练的生成式模型已改变文本、图像和视频内容的创作方式。生成式模型的下一个里程碑是更逼真地模拟现实世界物理特性,对人类、机器人等交互主体的行动做出响应。2025年,随着世界模型技术的不断发展,这一里程碑或许将实现。
总而言之,世界模型正在成为具身智能机器人领域的关键技术,其发展将极大地推动机器人技术的进步,并为未来智能化社会带来性的变化。
联系作者
文章来源:大数据文摘
作者微信:
作者简介:普及数据思维,传播数据文化