Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节

AIGC动态2年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节
关键字：报告,腾讯,模型,文本,图像
文章来源：量子位
内容字数：5447字

内容摘要：

丰色发自凹非寺量子位 | 公众号 QbitAI很快啊，“文生图新王”Stable Diffusion 3的技术报告，这就来了。
全文一共28页，诚意满满。
“老规矩”，宣传海报（⬇️）直接用模型生成，再秀一把文字渲染能力：
所以，SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能，究竟怎么点亮的？
技术报告揭露：
全靠多模态扩散Transformer架构MMDiT。
成功关键是对图像和文本表示使用单独两组权重的方式，由此实现了比SD3之前的版本都要强的性能飞升。
具体几何，我们翻开报告来看。
微调DiT，提升文本渲染能力在发布SD3之初，官方就已经透露它的架构和Sora同源，属于扩散型Transformer——DiT。
现在答案揭晓：
由于文生图模型需要考虑文本和图像两种模式，Stability AI比DiT更近一步，提出了新架构MMDiT。
这里的“MM”就是指“multimodal”。
和Stable Diffusion此前的版本一样，官方用两个预训练模型来获得合适和文本和图像表示。
其中文本表示的编码用三种不同的文本嵌入器（embedders）

原文链接：Stable Diffusion 3技术报告出炉：揭露Sora同款架构细节