北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源

AIGC动态5个月前发布 量子位
8 0 0

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源

AIGC动态欢迎阅读

原标题:北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源
关键字:快手,视频,指令,模型,物体
文章来源:量子位
内容字数:0字

内容摘要:


杨灵 投稿自 凹非寺量子位 | 公众号 QbitAI如何生成高难度、指令超复杂的视频呢?
北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~
在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。
这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。
首次定义组合视频生成在文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。
团队首次定义了组合视频生成任务,包括两个子任务:1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。
目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。
比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。
而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。
在长视频生成中,目前的方法支持的可变指令目前还停


原文链接:北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,代码将开源

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...