详解Latte：去年底上线的全球首个开源文生视频DiT

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：详解Latte：去年底上线的全球首个开源文生视频DiT
关键字：模型,视频,变体,时空,模块
文章来源：机器之心
内容字数：6971字

内容摘要：

机器之心专栏
机器之心编辑部随着 Sora 的成功发布，视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。
然而，由于视频数据的高度结构化与复杂性，如何将 DiT 扩展到视频生成领域却是一个挑战，来自上海人工智能实验室的研究团队联合其他机构通过大规模的实验回答了这个问题。
早在去年 11 月，该团队就已经开源了一款与 Sora 技术相似的自研模型：Latte。作为全球首个开源文生视频 DiT，Latte 受到了广泛关注，并且模型设计被众多开源框架所使用与参考，如 Open-Sora Plan (PKU) 和 Open-Sora (ColossalAI)。开源链接：https://github.com/Vchitect/Latte
项目主页：https://maxin-cn.github.io/latte_project/
论文链接：https://arxiv.org/pdf/2401.03048v1.pdf
先来看下Latte的视频生成效果。方法介绍
总体上，Latte 包含两个主要模

原文链接：详解Latte：去年底上线的全球首个开源文生视频DiT