国内公司有望做出Sora吗？这支清华系大模型团队给出了希望

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：国内公司有望做出Sora吗？这支清华系大模型团队给出了希望
关键字：架构,视频,模型,数据,报告
文章来源：机器之心
内容字数：16966字

内容摘要：

机器之心原创
作者：张倩在 Sora 代表的视频生成路线上，国内公司其实已有一定的技术储备。2023 年年底，很多人都预测，未来一年将是视频生成快速发展的一年。但出人意料的是，农历春节刚过，OpenAI 就扔出了一个重磅 —— 能生成 1 分钟流畅、逼真视频的 Sora。它的出现让很多研究者担心：国内外 AI 技术的差距是不是又拉大了？Sora 生成的新视频
根据 OpenAI 披露的技术报告，Sora 的核心技术点之一是将视觉数据转化为 patch 的统一表示形式，并通过 Transformer 和扩散模型结合，展现了卓越的 scale 特性。无独有偶，最近发布的 Stable Diffusion 3 也采用了同样的架构。
其实，这两项工作都是基于 Sora 核心研发成员 William Peebles 和纽约大学计算机科学助理教授谢赛宁合著的一篇论文《Scalable Diffusion Models with Transformers》。这篇论文提出了一种基于 Transformer 架构的新型扩散模型 ——DiT，用对潜在 patch 进行操作的 Transformer 替

原文链接：国内公司有望做出Sora吗？这支清华系大模型团队给出了希望