国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

AIGC动态7个月前发布 机器之心
22 0 0

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

AIGC动态欢迎阅读

原标题:国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收
关键字:视频,模型,报告,解读,条件
文章来源:机器之心
内容字数:8723字

内容摘要:


机器之心专栏
机器之心编辑部2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。
为什么 Sora 坚持使用 Diffusion Transformer,其中的原因从同时期发表在 ICLR 2024(VDT: General-purpose Video Diffusion Transformers via Mask Modeling)的论文可以窥见一二。这项工作由中国人民大学研究团队主导,并与加州大学伯克利分校、香港大学等进行了合作,最早于 2023 年 5 月公开在 arXiv 网站。研究团队提出了基于 Transformer 的 Video 统一生成框架 – Video Diffusion Transformer (VDT),并对采用 Transformer 架构的原因给出了详细的解释。论文标题:VDT: General-purpose Video Diffusion Transformers via


原文链接:国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...