颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源

AIGC动态1年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源
关键字：模型,图像,语义,表征,步骤
文章来源：新智元
内容字数：5902字

内容摘要：

新智元报道编辑：LRS 好困
【新智元导读】Masked Diffusion Transformer V2在ImageNet benchmark 上实现了1.58的FID score的新SoTA，并通过mask modeling表征学习策略大幅提升了DiT的训练速度。DiT作为效果惊艳的Sora的核心技术之一，利用Difffusion Transfomer 将生成模型扩展到更大的模型规模，从而实现高质量的图像生成。
然而，更大的模型规模导致训练成本飙升。
为此，来自Sea AI Lab、南开大学、昆仑万维2050研究院的颜水成和程明明研究团队在ICCV 2023提出的Masked Diffusion Transformer利用mask modeling表征学习策略通过学义表征信息来大幅加速Diffusion Transfomer的训练速度，并实现SoTA的图像生成效果。论文地址：https://arxiv.org/abs/2303.14389
GitHub地址：https://github.com/sail-sg/MDT
近日，Masked Diffusion Transform

原文链接：颜水成/程明明新作！Sora核心组件DiT训练提速10倍，Masked Diffusion Transformer V2开源