贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

GenProp 对物体移除、视频补全、物体替换、背景替换、物体插入、视频外绘等问题带来革新。

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

原标题:贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行
文章来源:机器之心
内容字数:4709字

贾佳亚团队新作GenProp:赋予文本转视频模型世界模拟能力

机器之心AIxiv专栏报道了贾佳亚团队与Adobe团队合作的最新研究成果GenProp(Generative Video Propagation),该模型通过一个通用框架,将视频生成模型转化为强大的视频编辑工具,展现了文本转视频模型在世界模拟方面的潜力,并革新了传统视觉任务。

1. GenProp的核心能力:传播式视频编辑

GenProp的核心在于其“传播”(Propagation)能力,能够将对视频首帧的修改传播到整个视频序列。这不仅限于简单的物体替换或移除,更能处理复杂的场景,例如移除物体及其影子、反射等“副作用”,以及插入具有的物体(例如行驶的赛车)。传统方法难以处理这些复杂场景,因为数据标注困难且需要模型对物理规律有深入的理解。

2. 超越传统感知模型的局限性

与传统的基于感知的实例追踪方法(如SAM)相比,GenProp利用其视频生成能力,完整地追踪物体的“副作用”,例如影子和反射,弥补了传统方法在处理复杂场景时的不足。这表明,生成式大规模预训练模型可能弥补感知模型的一些缺陷。

3. GenProp在多种视频编辑任务上的应用

GenProp在多种视频编辑任务上展现了其强大的能力,包括:

  1. 物体移除:不仅移除物体本身,还能同时移除其影子和反射等“副作用”。
  2. 物体插入:可以插入具有合理的物体。
  3. 物体替换:不仅能修改外观,还能大幅改变物体的形状。
  4. 背景替换:生成的物体能与新背景自然地融合。
  5. 视频外绘(Outpainting):即使没有相关数据训练,也能完成大面积区域的补全。
  6. 特效编辑:可以编辑诸如火焰等特效。

4. GenProp的通用框架与数据

GenProp采用了一个通用的框架,包含选择性内容编码器(SCE)和图像到视频(I2V)模型。SCE负责保留原始视频未改变区域的内容,而I2V模型负责生成新的视频内容。通过调整注入权重,可以控制生成和重建的比例。模型训练使用了Copy & Paste、Mask-and-Fill和Color Fill等多种数据合成技术,虽然没有涵盖所有应用场景,但其大规模的数据量使得模型能够处理各种不同的编辑任务。

5. 区域感知损失与注意力机制

GenProp引入了区域感知损失,限制了SCE对编辑区域的影响,帮助模型区分编辑区域和原始内容。注意力图的可视化结果也表明,模型的注意力集中在需要编辑的区域,引导I2V模型生成新的内容。

6. 总结

GenProp通过一个通用的框架,将视频生成模型转化为强大的视频编辑工具,在多种视频编辑任务上展现了其优越性,并展现了文本转视频模型在世界模拟方面的巨大潜力。其工作不仅在技术上有所突破,也为未来的视频编辑技术发展指明了新的方向。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...
第五届
全国人工智能大赛

总奖金超 233 万!

报名即将截止