将Transformer用于扩散模型，AI 生成视频达到照片级真实感

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：将Transformer用于扩散模型，AI 生成视频达到照片级真实感

文章来源：机器之心

内容字数：9333字

内容摘要：机器之心报道编辑：Panda在视频生成场景中，用 Transformer 做扩散模型的去噪骨干已经被李飞飞等研究者证明行得通。这可算得上是 Transformer 在视频生成领域取得的一项重大成功。近日，一项视频生成研究收获了大量赞誉，甚至被一位 X 网友评价为「好莱坞的终结」。真的有这么好吗？我们先看下效果：‍‍很明显，这些视频不仅几乎看不到伪影，而且还非常连贯、细节满满，甚至似乎就算真的在电影大片中加上几帧，也不会明显违和。这些视频的作者是来自斯坦福大学、谷歌、佐治亚理工学院的研究者提出的 Window Attention Latent Transformer，即窗口注意力隐 Transformer，简称 W.A.L.T。该方法成功地将 Transformer 架构整合到了隐视频扩散模型中。斯坦福大学的李飞飞教授也是该论文的作者之一。项目网站：https://walt-video-di…

原文链接：点此阅读原文：将Transformer用于扩散模型，AI 生成视频达到照片级真实感