Multiverse – Enigma Labs推出的全球首款AI生成多人游戏模型
Multiverse是由团队Enigma Labs开发的全球首个AI驱动的多人游戏模型。这款多人赛车游戏的设计允许玩家在游戏中超车、漂移和加速,他们的每一个动作都会实时影响和重塑游戏世界。该模型利用AI技术生成实时的游戏画面,确保所有玩家在同一个逻辑一致的环境中体验游戏。
Multiverse是什么
Multiverse是由的Enigma Labs团队推出的全球首个基于AI生成的多人游戏模型,专注于赛车游戏的体验。玩家在赛道上进行超车、漂移和加速等操作,每一次的决策都会即时影响游戏的世界。该模型通过AI技术实时生成画面,确保两个玩家看到的是同一逻辑统一的环境。Multiverse利用扩散模型,将玩家的视角和动作融合处理,生成一致且连贯的游戏画面。其核心技术在于创新的多人世界模型架构,通过联合动作向量和双视角通道堆叠技术,成功解决了多用户环境下视角一致性的问题。此外,该模型的训练成本低至1500美元,可在普通个人电脑上运行,项目的代码、数据、权重和研究成果已全面开源,推动了AI在多人游戏领域的应用。
Multiverse的主要功能
- 实时多人互动:支持玩家在同一虚拟环境中实时互动,如赛车游戏中的超车和碰撞,保证双方视角一致。
- 动态世界生成:根据玩家的操作和动作实时生成游戏画面。
- 高效帧预测:精准预测即将到来的游戏帧,确保游戏流畅性和连贯性。
- 低成本运行:可在普通PC上运行,无需高性能硬件,降低了使用门槛。
Multiverse的技术原理
- 多人游戏架构:为了构建真实的多人游戏世界模型,Multiverse重新设计了输入和输出的连接,对核心构建模块进行了拆解。模型包括:
- 动作嵌入器:获取两个玩家的动作并生成代表它们的嵌入。
- 去噪网络:利用扩散网络,根据两个玩家之前的帧和动作嵌入,同时生成两个玩家的帧。
- 上采样器:接收两个玩家的帧并计算其上采样后的版本。
- 视角合并解决方案:为了实现良好的多人游戏体验,模型收集玩家的历史帧和动作,输出各自预测的帧。关键在于保持内部一致性。Multiverse采用将两名玩家的视角整合成一幅图像的方式,将输入融合为一个联合动作向量,从而形成一个统一的场景。
- 训练方法
- 上下文扩展:为准确预测下一帧,模型需要接收玩家的动作和足够的帧数,以计算相对速度。研究表明,提供8帧(30帧/秒)足以让模型学习车辆学,但需要扩展上下文大小以捕获相对。
- 多人游戏训练:为了让模型学习驾驶技术和互动,必须在互动场景中进行训练。Multiverse将训练模型的自回归预测范围从0.25秒逐步增加到15秒,以提高模型的物理一致性和帧间一致性。
- 高效的长视野训练:为解决长时间预测对VRAM的挑战,Multiverse采用分页方式进行自回归预测,逐步加载数据以避免内存限制。
Multiverse的项目地址
- 项目官网:https://enigma-labs.io/blog
- GitHub仓库:https://github.com/EnigmaLabsAI/multiverse
- HuggingFace模型库:https://huggingface.co/Enigma-AI
Multiverse的数据集
- 数据来源:模型训练的数据主要来自索尼的《GT赛车4》(Gran Turismo 4)。
- 数据收集方法:通过游戏内的回放系统,记录每场比赛的两个视角,利用计算机视觉逐帧提取游戏屏幕上的控制指令。
- 自动数据生成:编写脚本向游戏的B-Spec模式发送随机输入,自动生成比赛回放画面,从而捕捉AI驱动的比赛视频。
Multiverse的应用场景
- 多人游戏开发:用于开发更真实的多人在线游戏,提升互动体验。
- VR/AR应用:创建共享的虚拟环境,增强沉浸感和社交性。
- AI训练与研究:作为开源模型,训练智能代理,研究复杂环境下的决策与协作。
- 教育与培训:构建虚拟训练场景,用于驾驶、军事演习或团队合作培训。
- 娱乐与社交:开发虚拟聚会和在线活动,提供新颖的社交体验。
- 模拟经营游戏:在模拟经营游戏中,玩家可进行资源管理和城市发展等操作,每个决策都影响整个模拟世界的经济和生态平衡。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...