视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp

本文设计了一种新型的生成视频传播框架——GenProp

视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp

原标题:视频编辑最新SOTA!港中文&Adobe等发布统一视频生成传播框架——GenProp
文章来源:智猩猩GenAI
内容字数:12204字

GenProp: 一种新型生成视频传播框架

本文介绍了一种名为GenProp的新型生成视频传播框架,该框架利用图像到视频(I2V)生成模型的能力,实现多种视频编辑任务,例如物体移除、插入和跟踪等。

1. 问题与挑战

现有的视频生成模型通常专注于单一任务,且传统的视频传播方法容易受错误累积影响,缺乏鲁棒性和泛化能力。GenProp旨在解决这些问题,并克服生成视频传播过程中的三个关键挑战:真实性(第一帧变化自然传播)、一致性(其他区域与原始视频一致)、通用性(适用于多种视频任务)。

2. GenProp框架设计

GenProp的核心思想是利用I2V模型将第一帧的编辑传播到整个视频。为了确保编辑的真实性和一致性,GenProp引入了两个关键组件:

  1. 选择性内容编码器 (SCE): SCE选择性地编码未编辑区域的内容,避免对已修改区域的编码干扰,从而增强未编辑内容的保真度。
  2. 掩码预测解码器 (MPD): MPD预测需要编辑的空间区域,帮助SCE区分修改区域和未修改区域。

此外,GenProp还设计了区域感知损失函数,平衡编辑区域和未编辑区域的损失,并利用合成数据进行训练,提高模型的泛化能力。合成数据通过对现有视频实例分割数据集进行增强生成,涵盖多种视频编辑任务。

3. 实验结果与分析

GenProp在视频编辑、物体移除和物体跟踪任务上均取得了优于现有方法的成果。实验结果表明:

  1. 视频编辑: GenProp在物体替换、插入和背景替换等任务中表现出色,尤其是在具有显著形状变化的复杂场景中。
  2. 物体移除: GenProp能够有效移除物体及其相关效果(如阴影、反射),且不需要密集的遮罩注释。
  3. 物体跟踪: GenProp能够精确跟踪物体及其相关效果,即使在物体发生反射和遮挡的情况下也能保持稳定。

定量和定性评估结果均证实了GenProp的优越性能。消融实验也验证了SCE、MPD和区域感知损失函数的有效性。

4. 结论与未来工作

GenProp提出了一种新颖的生成视频传播框架,利用I2V模型实现了多种视频编辑任务,并取得了显著的成果。未来工作将集中在支持多关键帧编辑和探索更多可支持的视频任务上。

(注意:文章开头关于自动驾驶峰会的预告与GenProp论文内容无关,已在总结中忽略。)


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止