刚刚，谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：刚刚，谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界
关键字：模型,动作,视频,图像,环境
文章来源：机器之心
内容字数：6149字

内容摘要：

机器之心报道
机器之心编辑部一键生成可玩游戏世界。
问世才两个星期，谷歌的世界模型也来了，能力看起来更强大：它生成的虚拟世界「自主可控」。刚刚，谷歌定义了生成式 AI 的全新范式 —— 生成式交互环境（Genie，Generative Interactive Environments）。Genie 是一个 110 亿参数的基础世界模型，可以通过单张图像提示生成可玩的交互式环境。
我们可以用它从未见过的图像进行提示，然后与自己想象中的虚拟世界进行互动。
不管是合成图像、照片甚至手绘草图，Genie 都可以从中生成无穷无尽的可玩世界。Genie 由三个部分组成：一个潜在动作模型，用于推断每对帧之间的潜在动作；一个视频 tokenizer，用于将原始视频帧转换为离散 token；一个动态模型，用于在给定潜在动作和过去帧 token 的情况下，预测视频的下一帧。
看到这项技术发布，很多人表示：谷歌又要来领导 AI 技术了。谷歌还提出，Genie 学到的潜在动作可以转移到真实的人类设计的环境中。在这个假设基础上，谷歌针对机器人视频训练了一个 Genie 模型，作为机器人领域潜在世界模型应用的概念

原文链接：刚刚，谷歌发布基础世界模型：11B参数，能生成可交互虚拟世界