汤晓鸥带队：免调优长视频生成，可支持512帧！任何扩散模型都能用｜ICLR'24

AIGC动态2年前 (2024)发布量子位

汤晓鸥弟子带队：免调优长视频生成，可支持512帧！任何扩散模型都能用｜ICLR'24

AIGC动态欢迎阅读

原标题：汤晓鸥带队：免调优长视频生成，可支持512帧！任何扩散模型都能用｜ICLR'24
关键字：腾讯,噪声,视频,时间,方法
文章来源：量子位
内容字数：4685字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI想要AI生成更长的视频？
现在，有人提出了一个效果很不错的免调优方法，直接就能作用于预训练好的视频扩散模型。
它最长可支持512帧（假设帧率按30fps算，理论上那就是能生成约17秒长的作品了）。可应用于任何视频生成模型，比如AnimateDiff、LaVie等等。
以及还能支持多文本生成，比如可以让骆驼一会跑一会停：
（提示词：”A camel running on the snow field.” -> “…… standing ……”）
这项成果来自腾讯AI Lab、南洋理工大学以及港科大，入选了ICLR 2024。
值得一提的是，与此前业内性能最佳的同类方法带来255%的额外时间成本相比，它仅产生约17%的时间成本，因此直接可以忽略不计。
可以说是成本和性能两全了～
具体来看看。
通过重新调度噪声实现该方法主要解决的是两个问题：
一是现有视频生成通常在有限数量的帧上完成训练，导致推理过程中无法生成高保真长视频。
二是这些模型还仅支持单文本生成（即使你给了“一个人睡在桌子上，然后看书”这种提示词，模型也只会响应其中一个条件），而应

原文链接：汤晓鸥带队：免调优长视频生成，可支持512帧！任何扩散模型都能用｜ICLR'24