清华军团推出中国首个对标Sora的视频大模型Vidu,扒一扒它背后的模型架构

清华军团推出中国首个对标Sora的视频大模型Vidu,扒一扒它背后的模型架构

AIGC动态欢迎阅读

原标题:清华军团推出中国首个对标Sora的视频模型Vidu,扒一扒它背后的模型架构
关键字:模型,架构,视频,网络,核心
文章来源:夕小瑶科技说
内容字数:4825字

内容摘要:


夕小瑶科技说 原创作者 | 小戏就在前天,Vidu 在 2024 中关村论坛年会之中横空出世。
伴随着“中国首个”,“Sora 级视频模型”,“模拟真实的物理世界”等关键词下的刷屏式的报道,Vidu 一下成为国产视频模型的一剂强心针。
尽管目前 Vidu 支持的视频长度是 16 秒,尚未达到 Sora 的 60 秒级,但是单看 Vidu 的宣传视频,如果以 Sora 为对标,可以看出 Vidu 在如时空一致性、物理规律遵循以及多镜头等等方面都已经对 Sora 不遑多让。
背靠清华军团,提出全球首个Diffusion + Transformer架构U-ViT,早于Sora撇开视频的质量不说,笔者发现了一个更的事情:
Vidu背后的模型架构U-ViT 和 Sora 的核心架构 Diffusion Transformer(DiT)完全一致,且更早于DiT的发表时间。
这家在 2023 年 3 月份成立的“清华军团”生数科技,其实早在 2022 年 9 月,其创业团队就发布了基于 Transformer 架构的底层统一网络框架 U-ViT。
而Sora 的核心架构 Diffusion Tr


原文链接:清华军团推出中国首个对标Sora的视频大模型Vidu,扒一扒它背后的模型架构

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...