生成扩散模型漫谈：信噪比与大图生成

AIGC动态1年前 (2024)发布算法邦

生成扩散模型漫谈：信噪比与大图生成

AIGC动态欢迎阅读

原标题：生成扩散模型漫谈：信噪比与大图生成
关键字：模型,解读,图像,分辨率,高分辨率
文章来源：算法邦
内容字数：8036字

内容摘要：

导读本文作者为苏剑林，来自月之暗面。这篇文章介绍了 Simple Diffusion，这是一篇探索如何直接在 Pixel 空间中端到端地训练图像扩散模型的工作，利用了信噪比的概念介绍了高分辨率扩散模型的训练效率低问题，并由此来指标调整新的 noise schedule，以及探索了如何尽可能节约算力成本地 scale up 模型架构。盘点主流的图像扩散模型作品，我们会发现一个特点：当前多数做高分辨率图像生成（下面简称“大图生成”）的工作，都是先通过 Encoder 变换到 Latent 空间进行的（即 LDM，Latent Diffusion Model [1] ），直接在原始 Pixel 空间训练的扩散模型，大多数分辨率都不超过 6464，而恰好，LDM 通过 AutoEncoder 变换后的 Latent，大小通常也不超过 6464。
这就自然引出了一系列问题：扩散模型是不是对于高分辨率生成存在固有困难？能否在 Pixel 空间直接生成高分辨率图像？
论文《Simple diffusion: End-to-end diffusion for high resolution image

原文链接：生成扩散模型漫谈：信噪比与大图生成