清华军团推出中国首个对标Sora的视频大模型Vidu，扒一扒它背后的模型架构

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：清华军团推出中国首个对标Sora的视频大模型Vidu，扒一扒它背后的模型架构
关键字：模型,架构,视频,网络,核心
文章来源：夕小瑶科技说
内容字数：4825字

内容摘要：

夕小瑶科技说原创作者 | 小戏就在前天，Vidu 在 2024 中关村论坛年会之中横空出世。
伴随着“中国首个”，“Sora 级视频模型”，“模拟真实的物理世界”等关键词下的刷屏式的报道，Vidu 一下成为国产视频模型的一剂强心针。
尽管目前 Vidu 支持的视频长度是 16 秒，尚未达到 Sora 的 60 秒级，但是单看 Vidu 的宣传视频，如果以 Sora 为对标，可以看出 Vidu 在如时空一致性、物理规律遵循以及多镜头等等方面都已经对 Sora 不遑多让。
背靠清华军团，提出全球首个Diffusion + Transformer架构U-ViT，早于Sora撇开视频的质量不说，笔者发现了一个更的事情：
Vidu背后的模型架构U-ViT 和 Sora 的核心架构 Diffusion Transformer（DiT）完全一致，且更早于DiT的发表时间。
这家在 2023 年 3 月份成立的“清华军团”生数科技，其实早在 2022 年 9 月，其创业团队就发布了基于 Transformer 架构的底层统一网络框架 U-ViT。
而Sora 的核心架构 Diffusion Tr

原文链接：清华军团推出中国首个对标Sora的视频大模型Vidu，扒一扒它背后的模型架构

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文