AIGC动态欢迎阅读
原标题:Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?|甲子光年
关键字:模型,图像,文本,解读,知识产权
文章来源:甲子光年
内容字数:9199字
内容摘要:
文生图模型的下一步是什么?作者|赵健
在大语言模型领域,闭源模型正在赢得比赛,无论是 OpenAI 还是刚刚发布新模型的 Anthropic,都是闭源模型的代表。
但在文生图领域,开源模型却表现出了足够强的竞争力。
2 周前,开源模型的代表企业 Stability AI 发布了最新的文生图模型 Stable Diffusion 3,采用了与 Sora 相同的底层架构(DiT,Diffusion Transformer),但是没有公布细节。
昨天,Stability AI 发布研究论文《Scaling Rectified Flow Transformers for High-Resolution Image Synthesis》,详细地介绍了 Stable Diffusion 3 的底层技术。
在该论文里,Stability AI 发布了一种新的多模态 DiT(MMDiT,Multimodal Diffusion Transformer)模型架构,对图像与语言表示使用单独的权重集。与之前的 SD3 版本相比,新版本提高了文本理解和拼写能力。
Stable Diffusion 3 可能是目
原文链接:Stable Diffusion 3 技术论文解读:开源能赢得文生图竞赛吗?|甲子光年
联系作者
文章来源:甲子光年
作者微信:jazzyear
作者简介:甲子光年是一家科技智库,包含智库、社群、企业服务版块,立足中国科技创新前沿阵地,动态跟踪头部科技企业发展和传统产业技术升级案例,推动人工智能、大数据、物联网、云计算、新能源、新材料、信息安全、大健康等科技创新在产业中的应用与落地。