Stable Diffusion 3 技术论文解读：开源能赢得文生图竞赛吗？｜甲子光年

AIGC动态2年前 (2024)发布甲子光年

AIGC动态欢迎阅读

原标题：Stable Diffusion 3 技术论文解读：开源能赢得文生图竞赛吗？｜甲子光年
关键字：模型,图像,文本,解读,知识产权
文章来源：甲子光年
内容字数：9199字

内容摘要：

文生图模型的下一步是什么？作者｜赵健
在大语言模型领域，闭源模型正在赢得比赛，无论是 OpenAI 还是刚刚发布新模型的 Anthropic，都是闭源模型的代表。
但在文生图领域，开源模型却表现出了足够强的竞争力。
2 周前，开源模型的代表企业 Stability AI 发布了最新的文生图模型 Stable Diffusion 3，采用了与 Sora 相同的底层架构（DiT，Diffusion Transformer），但是没有公布细节。
昨天，Stability AI 发布研究论文《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》，详细地介绍了 Stable Diffusion 3 的底层技术。
在该论文里，Stability AI 发布了一种新的多模态 DiT（MMDiT，Multimodal Diffusion Transformer）模型架构，对图像与语言表示使用单独的权重集。与之前的 SD3 版本相比，新版本提高了文本理解和拼写能力。
Stable Diffusion 3 可能是目

原文链接：Stable Diffusion 3 技术论文解读：开源能赢得文生图竞赛吗？｜甲子光年