北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源
关键字：快手,视频,指令,模型,物体
文章来源：量子位
内容字数：0字

内容摘要：

杨灵投稿自凹非寺量子位 | 公众号 QbitAI如何生成高难度、指令超复杂的视频呢？
北大与快手AI有解了，他们提出新框架VideoTetris，就像拼方块一样，轻松组合各种细节~
在复杂视频生成任务中，超过了Pika，Gen-2等一众商用模型。
这个框架不仅能够直接增强现有模型的组合生成，还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。
首次定义组合视频生成在文生图领域，RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域，组合生成自然地扩展到时间和空间维度，这样的场景还未被广泛探索。
团队首次定义了组合视频生成任务，包括两个子任务：1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。
目前经团队测试发现，几乎所有开源模型，包括商用模型在内都未能生成正确的视频。
比如输入“左边一个可爱的棕色狗狗，右边一只打盹的猫在阳光下小憩”，结果生成的都是融合了两个物体信息的奇怪视频。
而使用VideoTetris，生成出的视频是这样，成功保留了所有的位置信息和细节特征。
在长视频生成中，目前的方法支持的可变指令目前还停

原文链接：北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源