AIGC动态欢迎阅读
原标题:颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源
关键字:模型,图像,语义,表征,步骤
文章来源:新智元
内容字数:5902字
内容摘要:
新智元报道编辑:LRS 好困
【新智元导读】Masked Diffusion Transformer V2在ImageNet benchmark 上实现了1.58的FID score的新SoTA,并通过mask modeling表征学习策略大幅提升了DiT的训练速度。DiT作为效果惊艳的Sora的核心技术之一,利用Difffusion Transfomer 将生成模型扩展到更大的模型规模,从而实现高质量的图像生成。
然而,更大的模型规模导致训练成本飙升。
为此,来自Sea AI Lab、南开大学、昆仑万维2050研究院的颜水成和程明明研究团队在ICCV 2023提出的Masked Diffusion Transformer利用mask modeling表征学习策略通过学习语义表征信息来大幅加速Diffusion Transfomer的训练速度,并实现SoTA的图像生成效果。论文地址:https://arxiv.org/abs/2303.14389
GitHub地址:https://github.com/sail-sg/MDT
近日,Masked Diffusion Transform
原文链接:颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源
联系作者
文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。