OpenAI Sora视频生成模型技术报告中英全文

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：OpenAI Sora视频生成模型技术报告中英全文
关键字：报告,视频,模型,图像,能力
文章来源：人工智能学家
内容字数：18264字

内容摘要：

来源：专知
OpenAI 探索了视频数据生成模型的大规模训练。具体来说，研究人员在可变持续时间、分辨率和宽高比的视频和图像上联合训练了一个文本条件扩散模型。作者利用对视频和图像潜在代码的时空补丁进行操作的 transformer 架构，其最大的模型 Sora 能够生成长达一分钟的高质量视频。
OpenAI 认为，新展示的结果表明，扩展视频生成模型是构建物理用模拟器的一条有前途的途径。
We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable durations, resolutions and aspect ratios. We leverage a transformer architecture that operates on spacetime patches of video and image la

原文链接：OpenAI Sora视频生成模型技术报告中英全文