Meta视频AI王者登场,打爆Sora!体操终于不再鬼畜

Meta视频AI王者登场,打爆Sora!体操运动终于不再鬼畜

原标题:Meta视频AI王者登场,打爆Sora!体操终于不再鬼畜
文章来源:新智元
内容字数:6666字

Meta重磅发布VideoJAM:AI视频生成连贯性新突破

Meta与特拉维夫大学的研究人员近日发布了VideoJAM,一个用于改进视频生成模型连贯性的全新框架。该框架无需额外数据或模型规模扩展,即可显著提升视频中动作的真实性和流畅性,在连贯性方面达到SOTA,甚至超越了Sora等专有模型。

1. AI视频生成的难题

现有的AI视频生成模型普遍存在一个难题:难以准确生成真实的。这是因为传统的训练目标更侧重于视频外观的保真度,而忽略了的连贯性和物理规律。Meta的研究团队发现,基于像素的损失函数对视频帧的顺序几乎不敏感,这导致模型过度关注外观,而忽略了时间一致性。

2. VideoJAM:巧妙的解决方案

VideoJAM通过修改目标函数,引入显式的先验来解决这一问题。它利用单一的学习表征同时预测视频的外观和,迫使模型同时捕捉视觉信息和动态变化,从而提升对的理解能力。VideoJAM由两个互补模块组成:训练阶段扩展目标函数,同时预测像素和对应的;推理阶段引入“Inner-Guidance”机制,利用模型自身的预测作为动态引导信号,确保动作的连贯性。

3. VideoJAM的卓越性能

VideoJAM在多个方面展现了其优越性。它只需对预训练模型进行微调,即可实现显著的连贯性提升。在定性和定量实验中,VideoJAM生成的视频在的真实性、流畅性和物理一致性上都远超其他领先模型,例如Sora和Runway Gen3。即使是高难度动作,例如体操、花样滑冰以及复杂的物理交互(例如手指压粘液球、物体碎裂),VideoJAM也能生成令人惊艳的效果。

4. 定性与定量实验结果

定性实验通过多种复杂的场景,直观地展现了VideoJAM与其他模型的差异。在体操、篮球、滑板等场景中,VideoJAM生成的视频明显更加流畅自然,符合物理规律,而其他模型则经常出现动作不协调、违反物理规律等问题。定量实验则通过自动指标和人工评估,进一步证实了VideoJAM在连贯性、外观质量和提示词一致性方面的显著优势。

5. VideoJAM的局限性与未来展望

尽管VideoJAM取得了显著成果,但仍存在一些局限性。例如,在远景场景或复杂的物理交互中,模型的表现仍有提升空间。未来研究可以探索更精细的表示和物理模型的集成,进一步提升VideoJAM的性能,为更逼真、更自然的AI视频生成铺平道路。

6. 总结

VideoJAM为AI视频生成领域带来了突破性的进展,它通过巧妙的设计,有效地解决了连贯性难题。其通用性和高效性使其具有广泛的应用前景,为未来更真实、更复杂的AI视频生成提供了新的方向。


联系作者

文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...