Text-to-Video 模型已展现出世界模拟器的潜力,这种潜力能革新传统视觉任务吗?
原标题:贾佳亚团队 x Adobe提出GenProp,物体追踪移除特效样样在行
文章来源:AI前线
内容字数:4890字
GenProp:Text-to-Video 模型的视觉任务革新
本文介绍了贾佳亚团队和 Adobe 团队合作研发的 GenProp (Generative Video Propagation) 模型,该模型利用视频生成能力,在传统视觉任务中展现出显著优势,并拓展了这些任务的边界。
GenProp 的核心优势:超越传统感知模型
GenProp 基于视频生成模型,能够完整追踪物体的“副作用”,例如影子和反射,这是传统感知模型如 SAM 难以实现的。这种生成式大规模预训练弥补了感知模型在处理复杂场景变化时的不足,例如处理“千变万化”的影子。
GenProp 在各种视觉任务中的应用
GenProp 不仅在实例追踪方面表现出色,还在物体移除、视频补全、物体替换、背景替换、物体插入和视频外绘等方面展现了强大的能力。它可以移除物体及其副作用(如反射),插入具有合理的物体,进行大幅形状改变的物体替换,以及编辑特效等,这些都是传统方法难以实现的。
GenProp 的通用框架和数据策略
GenProp 采用了一个通用的框架,包括选择性内容编码器 (SCE) 和图像到视频 (I2V) 模型。SCE 保留原始视频的未改变区域,I2V 模型则生成新的视频内容。通过调整 Injection Weight,可以控制生成和重建的比例。训练过程中,利用 Copy & Paste、Mask-and-Fill 和 Color Fill 等合成数据,对模型进行训练,并采用区域感知损失 (Region-Aware Loss) 来增强模型的编辑能力。
GenProp 的涌现能力和未来展望
GenProp 在没有 outpainting 数据对训练的情况下,涌现出了 outpainting 的能力,体现了模型的通用性。该模型的通用框架和数据策略使其能够处理各种视觉编辑任务,未来有望在更多领域得到应用,推动 Text-to-Video 技术的进一步发展。
总而言之,GenProp 通过结合视频生成模型的优势,在解决传统视觉任务时展现出强大的能力和通用性,为视觉任务的革新提供了新的思路和方法。
联系作者
文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。