DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩
关键字：图像,研究者,文本,模型,分辨率
文章来源：机器之心
内容字数：10413字

内容摘要：

机器之心报道
编辑：杜伟、大盘鸡基于 Diffusion Transformer（DiT）又迎来一大力作「Flag-DiT」，这次要将图像、视频、音频和 3D「一网打尽」。今年 2 月初，Sora 的发布让 AI 社区更加看到了基础扩散模型的潜力。连同以往出现的 Stable Diffusion、PixArt-α 和 PixArt-Σ，这些模型在生成真实图像和视频方面取得了显著的成功。这意味着开始了从经典 U-Net 架构到基于 Transformer 的扩散主干架构的范式转变。
值得注意的是，通过这种改进的架构，Sora 和 Stable Diffusion 3 可以生成任意分辨率的样本，并表现出对 scaling 定律的严格遵守，即增加参数大小可以实现更好的结果。
不过，推出者们只对自家模型的设计选择提供有限的指导，并且缺乏详细的实现说明和公开的预训练检查点，限制了它们在社区使用和复刻方面的效用。并且，这些方法是针对特定任务（例如图像或视频生成任务）量身定制的，这阻碍了潜在的跨模态适应性。
为了弥补这些差距，上海 AI Lab、港中文和英伟达的研究者联合推出了 Lumina-T2X

原文链接：DiT架构大一统：一个框架集成图像、视频、音频和3D生成，可编辑、能试玩