基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了
关键字：模型,图像,华为,团队,文本
文章来源：机器之心
内容字数：6659字

内容摘要：

机器之心报道
机器之心编辑部这个模型和 Sora 一样采用了 DiT 框架。众所周知，开发顶级的文生图（T2I）模型需要大量资源，因此资源有限的个人研究者基本都不可能承担得起，这也成为了 AIGC（人工智能内容生成）社区创新的一大阻碍。同时随着时间的推移，AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。
于是关键的问题来了：我们能以怎样的方式将这些新元素高效地整合进现有模型，依托有限的资源让模型变得更强大？
为了探索这个问题，华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法：由弱到强式训练（weak-to-strong training）。论文标题：PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
论文地址：https://arxiv.org/pdf/2403.04692.pdf
项目页面：https://pixart-alpha.github.io/PixArt-sigma-project/
他们的研究基于他们去年十月提出

原文链接：基于DiT，支持4K图像生成，华为诺亚0.6B文生图模型PixArt-Σ来了