国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收
关键字：视频,模型,报告,解读,条件
文章来源：机器之心
内容字数：8723字

内容摘要：

机器之心专栏
机器之心编辑部2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。
为什么 Sora 坚持使用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。这项工作由中国人民大学研究团队主导，并与加州大学伯克利分校、香港大学等进行了合作，最早于 2023 年 5 月公开在 arXiv 网站。研究团队提出了基于 Transformer 的 Video 统一生成框架 – Video Diffusion Transformer (VDT)，并对采用 Transformer 架构的原因给出了详细的解释。论文标题：VDT: General-purpose Video Diffusion Transformers via

原文链接：国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收