最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

AIGC动态6个月前发布 智东西
13 0 0

最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

AIGC动态欢迎阅读

原标题:最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”
关键字:模型,图像,提示,文本,能力
文章来源:智东西
内容字数:8435字

内容摘要:


消费级显卡可训,模型权重将开源。
作者|香草
编辑|李水青
智东西3月6日报道,昨天下午,明星创企Stability AI发布Stable Diffusion 3(SD3)论文,首度披露其最强文生图大模型背后的技术细节,并放出更多新鲜的生成示例。
▲Stable Diffusion 3模型技术原理论文
OpenAI近期爆火的文生视频模型Sora一样,SD3采用了扩散Transformer架构DiT,并在其基础上进行改进。新架构名为MMDiT,其主要突破点在于对文字、图像两种模态的数据使用了两组独立的权重,并通过注意力机制进行连接,这使得信息可以在文本和图像之间流动,大大提升了模型的语义理解和文字渲染能力。
在SD3放出的示例图中,包含文字渲染部分的图像占了很大比例。下图的提示词分别为:漂亮的像素艺术,画面是一个魔法师和悬浮文字“Achievement unlocked: Diffusion models can spell now”(成就已解锁:扩散模型可以拼写了);青蛙坐在20世纪50年代的一家餐馆里,穿着皮夹克,头戴礼帽,桌上有一个巨大的汉堡和一个写着“froggy friday


原文链接:最强文生图模型架构曝光!28页论文详解技术细节,与Sora“师出同门”

联系作者

文章来源:智东西
作者微信:zhidxcom
作者简介:智能产业新媒体!智东西专注报道人工智能主导的前沿技术发展,和技术应用带来的千行百业产业升级。聚焦智能变革,服务产业升级。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...