爆火Sora背后的技术,一文综述扩散模型的最新发展方向

AIGC动态10个月前发布 机器之心
21 0 0

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

AIGC动态欢迎阅读

原标题:爆火Sora背后的技术,一文综述扩散模型的最新发展方向
关键字:模型,数据,图像,过程,文本
文章来源:机器之心
内容字数:11843字

内容摘要:


机器之心专栏
机器之心编辑部为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此,扩散模型在计算机视觉、自然语言处理等方面备受关注。
扩散模型由两个过程组成:前向过程和反向过程。前向过程把数据转化为简单的先验分布,而反向过程则逆转这一变化,用训练好的神经网络模拟微分方程来生成数据。与其他模型相比,扩散模型提供了更稳定的训练目标和更好的生成效果。不过,扩散模型的采样过程伴随反复推理求值。这一过程面临着不稳定性、高维计算需求和复杂的似然性优化等挑战。研究者为此提出了多种方案,如改进 ODE/SDE 解算器和采取模型蒸馏策略来加速采样,以及新的前向过程来提高稳定性和降低维度。
近期,港中文联合西湖大学、MIT、之江实验室,在 IEEE TKDE 上发表的题为《A Survey on Generative Diffusion Models》的综述论文从四个方面讨论了扩散模型的最新进展:采样加速


原文链接:爆火Sora背后的技术,一文综述扩散模型的最新发展方向

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...