4倍内存效率，生成和超分双SOTA！清华&智谱AI发布最新Inf-DiT模型

AIGC动态1年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：4倍内存效率，生成和超分双SOTA！清华&智谱AI发布最新Inf-DiT模型
关键字：图像,模型,本文,分辨率,内存
文章来源：算法邦
内容字数：19251字

内容摘要：

直播预告 | 5月28日10点，「智猩猩AI新青年讲座」第236讲正式开讲，密歇根大学安娜堡分校在读博士生张挥杰将直播讲解《利用多级框架和多解码器架构提高扩散模型训练效率》，欢迎扫名~文章链接：https://arxiv.org/pdf/2405.04312 github 链接：https://github.com/THUDM/Inf-DiT
扩散模型在近年来的图像生成中表现出了显著的性能。然而，由于生成超高分辨率图像（如 4096 × 4096）时内存需求呈二次方增加，生成图像的分辨率通常限制在 1024 × 1024。
本文提出了一种单向块注意力机制，可以在推理过程中自适应地调整内存开销并处理全局依赖关系。基于这个模块，本文采用 DiT 结构进行上采样，并开发了一种能够对各种形状和分辨率的图像进行上采样的无限超分辨率模型。综合实验表明，本文的模型在机器和人类评估中都达到了生成超高分辨率图像的最新技术水平。与常用的 UNet 结构相比，本文的模型在生成 4096 × 4096 图像时可以节省超过 5 倍的内存。
01介绍近年来，扩散模型取得了迅速进展，显著推动了图像生成和编辑领域

原文链接：4倍内存效率，生成和超分双SOTA！清华&智谱AI发布最新Inf-DiT模型