AIGC动态欢迎阅读
原标题:汤晓鸥带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24
关键字:腾讯,噪声,视频,时间,方法
文章来源:量子位
内容字数:4685字
内容摘要:
丰色 发自 凹非寺量子位 | 公众号 QbitAI想要AI生成更长的视频?
现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。
它最长可支持512帧(假设帧率按30fps算,理论上那就是能生成约17秒长的作品了)。可应用于任何视频生成模型,比如AnimateDiff、LaVie等等。
以及还能支持多文本生成,比如可以让骆驼一会跑一会停:
(提示词:”A camel running on the snow field.” -> “…… standing ……”)
这项成果来自腾讯AI Lab、南洋理工大学以及港科大,入选了ICLR 2024。
值得一提的是,与此前业内性能最佳的同类方法带来255%的额外时间成本相比,它仅产生约17%的时间成本,因此直接可以忽略不计。
可以说是成本和性能两全了~
具体来看看。
通过重新调度噪声实现该方法主要解决的是两个问题:
一是现有视频生成通常在有限数量的帧上完成训练,导致推理过程中无法生成高保真长视频。
二是这些模型还仅支持单文本生成(即使你给了“一个人睡在桌子上,然后看书”这种提示词,模型也只会响应其中一个条件),而应
原文链接:汤晓鸥带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24
联系作者
文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...