华为盘古画画3.0：业界最大的中文文生图模型，效果YYDS！

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：华为盘古画画3.0：业界最大的中文文生图模型，效果YYDS！
关键字：模型,图像,分辨率,空间,数据
文章来源：算法邦
内容字数：6821字

内容摘要：

直播预告 | 1月17日晚7点，「多模态大模型线上闭门会」正式开讲！阿里巴巴通义实验室 NLP 高级算法专家严明参与出品，携手刘兆洋、李彦玮、文束三位青年学者，共同探讨多模态大模型的发展与应用，欢迎报名。文章地址：
https://arxiv.org/pdf/2312.16486.pdf
项目地址：
https://pangu-draw.github.io
导言：目前的大规模扩散模型代表了条件图像合成的巨大飞跃，能够解释各种线索，如文本、人体姿势和边缘。然而，它们对大量计算资源和广泛数据收集的依赖仍然是一个瓶颈。另一方面，由于图像分辨率和潜在空间嵌入结构不兼容，现有的扩散模型(每个模型专门用于不同的控制并在独特的潜在空间中运行)的集成带来了挑战，阻碍了它们的联合使用。
针对这些限制，本文提出了“PanGu-Draw”，这是一种新型的潜在扩散模型，专为资源高效的文本到图像合成而设计，能够适应多种控制信号。首先提出了一种资源高效的时间解耦训练策略，该策略将单一的文本到图像模型分解为结构和纹理生成器。每个生成器都使用最大限度地提高数据利用率和计算效率的方案进行训练，减少了48%的数据准备，减

原文链接：华为盘古画画3.0：业界最大的中文文生图模型，效果YYDS！