Muse目前生成游戏视频的分辨率仅为300×180像素。
原标题:微软联手Xbox!首个游戏视频模型登Nature,AI成游戏视频剪辑大师
文章来源:智东西
内容字数:6688字
微软Muse:基于AI的游戏视频生成模型
近日,微软发布了首个世界和人类行动模型(WHAM)Muse,并在国际顶级学术期刊《Nature》上发表相关论文。Muse是一个能够生成游戏视频的AI模型,其参数量高达16亿,基于近7年的Xbox游戏数据进行训练,能够理解游戏物理和3D环境,生成玩家动作和视觉效果。
1. Muse模型的核心能力与数据
Muse模型的核心能力在于生成一致性、多样性和持久性的游戏视频。它能生成长达两分钟与真实游戏效果相近的视频,并提供不同的摄像机角度、角色和游戏工具。此外,开发者可以添加新元素,Muse会自动将其合理融入画面。
Muse的训练数据来自Xbox游戏《Bleeding Edge》的7张地图,包含约50万个匿名游戏会话数据,总计27.89 TiB,相当于7年多的人类游戏时间。为了保护用户隐私,所有个人身份信息(Xbox用户ID)均已删除。
2. 模型训练与评估
Muse的训练过程使用了VQGAN图像编码器,将图像编码为Tokens序列。研究人员通过调整Tokens数量来平衡图像质量、生成速度和上下文长度。模型采用自回归采样生成新的序列,并允许修改Tokens以调整图像或控制器动作。
模型评估方面,研究人员使用了Fréchet视频距离(FVD)衡量一致性,Wasserstein距离衡量动作与真实玩家动作的接近程度。结果表明,Muse生成的视频在一致性、多样性和持久性方面都接近人类真实水平。
3. 多学科协作与技术细节
Muse的开发由微软研究员、Xbox Games Studios和Ninja Theory合作完成。研究人员首先进行了用户研究,确定了生成模型需要具备的一致性、多样性、持久性等关键能力,以此指导模型的设计和训练。
训练初期,研究人员使用V100集群进行训练,并最终扩展到100个GPU,并最终迁移到H100进行大规模训练。 通过不断改进,Muse能够处理更高分辨率的图像,并支持所有7张《Bleeding Edge》地图。
4. 开源与未来展望
目前,微软已开源Muse的权重和样本数据,并提供了一个可视化的交互界面WHAM Demonstrator,方便开发者进行体验和研究。Muse的出现展现了生成式AI在游戏领域的巨大潜力,未来有望重塑游戏体验,并催生更多基于AI的新颖游戏。
尽管目前Muse生成的视频分辨率仅为300×180像素,但这项研究仍具有里程碑式的意义,为未来更高质量、更逼真的AI游戏视频生成奠定了基础。
联系作者
文章来源:智东西
作者微信:
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。