OpenAI安全系统负责人：从头构建视频生成扩散模型

AIGC动态2年前 (2024)发布人工智能学家

AIGC动态欢迎阅读

原标题：OpenAI安全系统负责人：从头构建视频生成扩散模型
关键字：视频,模型,时间,图像,卷积
文章来源：人工智能学家
内容字数：19347字

内容摘要：

作者 |Lilian Weng
OneFlow编译
翻译｜杨婷、宛子琳、张雪聃
题图由SiliconFlow MaaS平台生成
过去几年，扩散模型（Diffusion models）在图像合成领域取得了显著成效。目前，研究界已开始尝试更具挑战性的任务——将该技术用于视频生成。视频生成任务是图像生成的扩展，因为视频本质上是一系列连续的图像帧。相较于单一的图像生成，视频生成的难度更大，原因如下：
它要求在时间轴上各帧之间保持时间一致性，这自然意味着需要将更多的世界知识嵌入到模型中。
相较于文本或图像，收集大量高质量、高维度的视频数据难度更大，更不用说要获取文本与视频的配对数据了。
阅读要求：在继续阅读本文之前，请确保你已经阅读了之前发布的关于图像生成的“什么是扩散模型？（https://lilianweng.github.io/posts/2021-07-11-diffusion-models/）”一文。（本文作者Lilian Weng是OpenAI的AI安全与对齐负责人。本文由OneFlow编译发布，转载请联系授权。原文：https://lilianweng.github.io/post

原文链接：OpenAI安全系统负责人：从头构建视频生成扩散模型