爆火Sora参数规模仅30亿？谢赛宁等大佬技术分析来了

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：爆火Sora参数规模仅30亿？谢赛宁等大佬技术分析来了
关键字：报告,视频,商标,字节跳动,模型
文章来源：量子位
内容字数：6666字

内容摘要：

明敏丰色发自凹非寺量子位 | 公众号 QbitAI就说Sora有多火吧。
生成的视频上线一个、疯传一个。
作者小哥新上传的效果，很快引来围观。
失败案例都让人看得上瘾。
将近1万人点赞。
学术圈更炸开锅了，各路大佬纷纷开麦。
纽约大学助理教授谢赛宁（ResNeXt的一作）直言，Sora将改写整个视频生成领域。
英伟达高级研究科学家Jim Fan高呼，这就是视频生成的GPT-3时刻啊！
尤其在技术报告发布后，讨论变得更加有趣。因为其中诸多细节不是十分明确，所以大佬们也只能猜测。
包括“Sora是一个数据驱动的物理引擎”、“Sora建立在DiT模型之上、参数可能仅30亿”等等。
所以，Sora为啥能如此惊艳？它对视频生成领域的意义是？这不，很快就有了一些可能的答案。
视频生成的GPT-3时刻总的来说，Sora是一个在不同时长、分辨率和宽高比的视频及图像上训练而成的扩散模型，同时采用了Transformer架构，也就是一种“扩散型Transformer”。
关于技术细节，官方报告简单提了以下6点：
一是视觉数据的“创新转化”。
与大语言模型中的token不同，Sora采用的是“Patc

原文链接：爆火Sora参数规模仅30亿？谢赛宁等大佬技术分析来了