Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节

AIGC动态8个月前发布 量子位
17 0 0

Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节

AIGC动态欢迎阅读

原标题:Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
关键字:报告,腾讯,模型,文本,图像
文章来源:量子位
内容字数:5447字

内容摘要:


丰色 发自 凹非寺量子位 | 公众号 QbitAI很快啊,“文生图新王”Stable Diffusion 3的技术报告,这就来了。
全文一共28页,诚意满满。
“老规矩”,宣传海报(⬇️)直接用模型生成,再秀一把文字渲染能力:
所以,SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能,究竟怎么点亮的?
技术报告揭露:
全靠多模态扩散Transformer架构MMDiT。
成功关键是对图像和文本表示使用单独两组权重的方式,由此实现了比SD3之前的版本都要强的性能飞升。
具体几何,我们翻开报告来看。
微调DiT,提升文本渲染能力在发布SD3之初,官方就已经透露它的架构和Sora同源,属于扩散型Transformer——DiT。
现在答案揭晓:
由于文生图模型需要考虑文本和图像两种模式,Stability AI比DiT更近一步,提出了新架构MMDiT。
这里的“MM”就是指“multimodal”。
和Stable Diffusion此前的版本一样,官方用两个预训练模型来获得合适和文本和图像表示。
其中文本表示的编码用三种不同的文本嵌入器(embedders)


原文链接:Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...