从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成
关键字：视频,模型,视觉,世界,语言
文章来源：量子位
内容字数：4469字

内容摘要：

允中发自凹非寺量子位 | 公众号 QbitAI建立会做视频的世界模型，也能通过Transformer来实现了！
来自清华和极佳科技的研究人员联手，推出了全新的视频生成通用世界模型——WorldDreamer。
它可以完成自然场景和自动驾驶场景多种视频生成任务，例如文生视频、图生视频、视频编辑、动作序列生视频等。
据团队介绍，通过预测Token的方式来建立通用场景世界模型，WorldDreamer是业界首个。
它把视频生成转换为一个序列预测任务，可以对物理世界的变化和规律进行充分地学习。
可视化实验已经证明，WorldDreamer已经深刻理解了通用世界的动态变化规律。
那么，它都能完成哪些视频任务，效果如何呢？
支持多种视频任务图像生成视频（Image to Video）WorldDreamer可以基于单一图像预测未来的帧。
只需首张图像输入，WorldDreamer将剩余的视频帧视为被掩码的视觉Token，并对这部分Token进行预测。
如下图所示，WorldDreamer具有生成高质量电影级别视频的能力。
其生成的视频呈现出无缝的逐帧，类似于真实电影中流畅的摄像机。

原文链接：从20亿数据中学习物理世界，基于Transformer的通用世界模型成功挑战视频生成