Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!一致性暴增近20%,可无缝集成DiT模型

AIGC动态5个月前发布 量子位
254 0 0

训练时引入信息表示

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

原标题:Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!一致性暴增近20%,可无缝集成DiT模型
文章来源:量子位
内容字数:3391字

Meta GenAI团队的VideoJAM:视频生成一致性新突破

Meta GenAI团队近日发布了全新的视频生成框架VideoJAM,该框架在处理视频中的一致性问题上取得了显著突破,其动态效果甚至超越了Sora和Gen3等现有主流模型。VideoJAM基于Diffusion Model(DiT)架构,但通过巧妙的设计,显著提升了视频生成中的质量,即使是复杂且快速的场景,也能呈现出高度逼真和物理一致的效果。

1. VideoJAM的惊艳效果

VideoJAM在各种复杂场景下的表现令人印象深刻:无论是快速变化的舞蹈动作、复杂的倒立动作,还是细微的蜡烛熄灭过程(包括火苗晃动和白烟),甚至是书法笔迹与纸上字迹的同步,以及史莱姆的形变和粘连效果,都展现出极高的真实感和物理准确性。 甚至像杂技演员抛接三个球这样的高难度动作,其抛物线轨迹也得到了精准的还原。这些例子充分展示了VideoJAM在一致性方面的巨大进步。

2. 性能提升显著超越现有模型

在4B和30B规模的DiT模型上进行的评估表明,VideoJAM显著提升了质量。相比于原始的DiT模型,质量分别提升了19.67%和4.88%,并超越了Gen3和Sora等其他对比模型。这表明VideoJAM的改进并非简单的参数堆砌,而是算法上的实质性突破。

3. VideoJAM的核心技术:联合外观-表示和内部引导机制

VideoJAM的成功秘诀在于其独特的两阶段设计:训练阶段的“联合外观-表示”和推理阶段的“内部引导机制”。

在训练阶段,VideoJAM引入了额外的预测任务,并通过添加输入和输出两个线性投影层,将外观特征和特征(以光流形式表示)融合成一个联合的潜在表示。模型同时学习预测视频的外观和,并通过光流的RGB表示简化了信息的处理,提升了模型的兼容性。

在推理阶段,VideoJAM采用了“内部引导机制”,利用模型自身预测的信息来动态调整生成过程。 该机制将生成过程分为粗略阶段和细化阶段,分别关注大范围连贯性和细节优化,从而确保生成视频的一致性。

4. 结论

VideoJAM通过巧妙的训练策略和推理机制,在视频生成领域的一致性问题上取得了突破性进展。其出色的性能和高效的实现方式,为未来视频生成技术的进一步发展提供了新的方向。 一些网友甚至认为,VideoJAM生成的视频在第一眼看上去就和真实视频无异,未来或许很快就能达到以假乱真的程度。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...