李飞飞谷歌破局之作！用Transformer生成逼真视频，下一个Pika来了？

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：李飞飞谷歌破局之作！用Transformer生成逼真视频，下一个Pika来了？

文章来源：新智元

内容字数：8469字

内容摘要：新智元报道编辑：Aeneas 润【新智元导读】今天，李飞飞携斯坦福联袂谷歌，用Transformer生成了逼真视频，效果媲美Gen-2比肩Pika。2023年俨然已成AI视频元年！视频大数据时代，真的来了！刚刚，李飞飞的斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。这是一个在共享潜在空间中训练图像和视频生成的，基于Transformer的扩散模型。论文：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf英伟达高级科学家Jim Fan转发评论道：2022年是影像之年，2023是声波之年，而2024，是视频之年！首先，研究人员使用因果编码器在共享潜在空间中压缩图像和视频。其次，为了提高记忆和训练效率，研究人员使用基于窗口注意的变压器架构来进行潜在空间中的联合空间和时间生成建模。研究人员的模型可以根据自然语言…

原文链接：点此阅读原文：李飞飞谷歌破局之作！用Transformer生成逼真视频，下一个Pika来了？