从图像到视频：浅谈Video Diffusion Models背后的底层原理

AIGC动态欢迎阅读

原标题：从图像到视频：浅谈Video Diffusion Models背后的底层原理
关键字：视频,模型,张量,数据,图像
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

01前言最近一段时间恰好在推进手上的一个做视频生成相关的课‍‍题，也是对视频扩散模型（Video Diffusion Models）这一领域有了颇多认识。其中，视频扩散模型的很多设计都还要从图像扩散模型的时代讲起。作为一个见证Stable Diffusion诞生，到入行可控图像生成领域，到产出自己第一篇diffusion model相关的工作，再到目前产出第二个diffusion相关的视频工作的在读博士生，某种程度上可以说是见证了video diffusion models发展的历程。
说到视频生成这件事，真正让这个话题走进大家的视野的，其实还是今年年初Sora的首次亮相。Sora的亮相带火了两个东西——一个是Diffusion Transformer，另一个则是text-to-video generation这件事。至今时隔Sora亮相已经过去了足足八个月之久，视频生成领域的卷度貌似没有我们想象中的那样夸张。「夸张」这个标准我们可以用2022年到2024年，基于diffusion model的图像生成技术论文来对比，根据我自己的GitHub调研仓库结果显示，2022年相关的文章发表数

原文链接：从图像到视频：浅谈Video Diffusion Models背后的底层原理