最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”

AIGC动态2年前 (2024)发布智东西

AIGC动态欢迎阅读

原标题：最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”
关键字：模型,图像,提示,文本,能力
文章来源：智东西
内容字数：8435字

内容摘要：

消费级显卡可训，模型权重将开源。
作者|香草
编辑|李水青
智东西3月6日报道，昨天下午，明星创企Stability AI发布Stable Diffusion 3（SD3）论文，首度披露其最强文生图大模型背后的技术细节，并放出更多新鲜的生成示例。
▲Stable Diffusion 3模型技术原理论文
与OpenAI近期爆火的文生视频模型Sora一样，SD3采用了扩散Transformer架构DiT，并在其基础上进行改进。新架构名为MMDiT，其主要突破点在于对文字、图像两种模态的数据使用了两组的权重，并通过注意力机制进行连接，这使得信息可以在文本和图像之间流动，大大提升了模型的语义理解和文字渲染能力。
在SD3放出的示例图中，包含文字渲染部分的图像占了很例。下图的提示词分别为：漂亮的像素艺术，画面是一个魔法师和悬浮文字“Achievement unlocked: Diffusion models can spell now”（成就已解锁：扩散模型可以拼写了）；青蛙坐在20世纪50年代的一家餐馆里，穿着皮夹克，头戴礼帽，桌上有一个巨大的汉堡和一个写着“froggy friday

原文链接：最强文生图模型架构曝光！28页论文详解技术细节，与Sora“师出同门”