从图像到视频:浅谈Video Diffusion Models背后的底层原理

从图像到视频:浅谈Video Diffusion Models背后的底层原理

AIGC动态欢迎阅读

原标题:从图像视频:浅谈Video Diffusion Models背后的底层原理
关键字:视频,模型,张量,数据,图像
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


01前言最近一段时间恰好在推进手上的一个做视频生成相关的课‍‍题,也是对视频扩散模型(Video Diffusion Models)这一领域有了颇多认识。其中,视频扩散模型的很多设计都还要从图像扩散模型的时代讲起。作为一个见证Stable Diffusion诞生,到入行可控图像生成领域,到产出自己第一篇diffusion model相关的工作,再到目前产出第二个diffusion相关的视频工作的在读博士生,某种程度上可以说是见证了video diffusion models发展的历程。
说到视频生成这件事,真正让这个话题走进大家的视野的,其实还是今年年初Sora的首次亮相。Sora的亮相带火了两个东西——一个是Diffusion Transformer,另一个则是text-to-video generation这件事。至今时隔Sora亮相已经过去了足足八个月之久,视频生成领域的卷度貌似没有我们想象中的那样夸张。「夸张」这个标准我们可以用2022年到2024年,基于diffusion model的图像生成技术论文来对比,根据我自己的GitHub调研仓库结果显示,2022年相关的文章发表数


原文链接:从图像到视频:浅谈Video Diffusion Models背后的底层原理

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...