爆火Sora背后的技术，一文综述扩散模型的最新发展方向

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：爆火Sora背后的技术，一文综述扩散模型的最新发展方向
关键字：模型,数据,图像,过程,文本
文章来源：机器之心
内容字数：11843字

内容摘要：

机器之心专栏
机器之心编辑部为了使机器具有人类的想象力，深度生成模型取得了重大进展。这些模型能创造逼真的样本，尤其是扩散模型，在多个领域表现出色。扩散模型解决了其他模型的限制，如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此，扩散模型在计算机视觉、自然语言处理等方面备受关注。
扩散模型由两个过程组成：前向过程和反向过程。前向过程把数据转化为简单的先验分布，而反向过程则逆转这一变化，用训练好的神经网络模拟微分方程来生成数据。与其他模型相比，扩散模型提供了更稳定的训练目标和更好的生成效果。不过，扩散模型的采样过程伴随反复推理求值。这一过程面临着不稳定性、高维计算需求和复杂的似然性优化等挑战。研究者为此提出了多种方案，如改进 ODE/SDE 解算器和采取模型蒸馏策略来加速采样，以及新的前向过程来提高稳定性和降低维度。
近期，港中文联合西湖大学、MIT、之江实验室，在 IEEE TKDE 上发表的题为《A Survey on Generative Diffusion Models》的综述论文从四个方面讨论了扩散模型的最新进展：采样加速

原文链接：爆火Sora背后的技术，一文综述扩散模型的最新发展方向