两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源
关键字：视频,方法,模型,团队,质量
文章来源：机器之心
内容字数：6079字

内容摘要：

机器之心报道
编辑：Panda广阔的战场，风暴兵在奔跑……
prompt：Wide shot of battlefield, stormtroopers running…
这段长达 1200 帧的 2 分钟视频来自一个文生视频（text-to-video）模型，尽管 AI 生成的痕迹依然浓重，但我们必须承认，其中的人物和场景具有相当不错的一致性。
这是如何办到的呢？要知道，虽然近些年文生视频技术的生成质量和文本对齐质量都已经相当出色，但大多数现有方法都聚焦于生成短视频（通常是 16 或 24 帧长度）。然而，适用于短视频的现有方法通常无法用于长视频（≥ 64 帧）。
即使是生成短序列，通常也需要成本高昂的训练，比如训练步数超过 260K，批大小超过 4500。如果不在更长的视频上进行训练，通过短视频生成器来制作长视频，得到的长视频通常质量不佳。而现有的自回归方法（通过使用短视频后几帧生成新的短视频，进而合成长视频）也存在场景切换不一致等一些问题。
为了克服现有方法的缺点和局限，Picsart AI Resarch 等多个机构联合提出了一种新的文生视频方法：StreamingT2V。

原文链接：两分钟1200帧的长视频生成器StreamingT2V来了，代码将开源