Lumiere: Google 发布用于视频生成的时空扩散模型

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：Lumiere: Google 发布用于视频生成的时空扩散模型
关键字：模型,视频,报告,时间,图像
文章来源：人工智能学家
内容字数：3900字

内容摘要：

来源：跳动的数据
Lumiere 一种文本转视频扩散模型，旨在合成具有逼真、多样和连贯的视频，这是视频合成领域的一项重大挑战。为此，引入了一种时空 U-Net 架构，该架构通过模型的一次单向传递即可生成视频的整个时间段。这与现有视频模型不同，现有视频模型会先合成关键帧，然后再进行时间超分辨率，这种方法从本质上使得全局时间一致性难以实现。
https://arxiv.org/pdf/2401.12945.pdf
通过部署空间和（重要地）时间下采样和上采样以及利用预训练的文本转图像扩散模型，我们的模型可以学习通过在多个时空尺度进行处理来直接生成全帧率、低分辨率视频。展示了最先进的文本转视频生成结果，并表明我们的设计可以轻松地促进各种内容创作任务和视频编辑应用程序，包括图像转视频、视频修复和风格化生成。
简介
指出了图像生成模型在近年来取得的显著进展，尤其是在文本到图像（T2I）扩散模型方面。这些模型现在能够合成高分辨率、逼真的图像，并且能够根据复杂的文本提示进行图像编辑和其他下游任务。
尽管图像生成模型取得了巨大成功，但文本到视频（T2V）模型的训练仍然是一个开放的挑战。这是因为视频数

原文链接：Lumiere: Google 发布用于视频生成的时空扩散模型