LinFusion架构以一种新颖的广义线性注意力机制作为传统自注意力替代方案。
原标题:一分钟生成16K高清图像!NUS提出LinFusion,可兼容Stable Diffusion插件 | 一作、刘松桦博士主讲预告
文章来源:智猩猩GenAI
内容字数:2652字
扩散模型的创新与挑战
近年来,扩散模型在人工智能生成内容(AIGC)领域取得了显著进步。与传统的生成对抗网络(GAN)不同,扩散模型通过迭代细化噪声向量,能够产生具有精细细节的高质量图像。然而,现代扩散模型在生成高分辨率视觉内容时面临显著挑战,因为其复杂度随图像分辨率呈二次增长,这使得处理复杂空间关系的自注意力机制成为瓶颈。
LinFusion架构的提出
为了解决上述问题,新加坡国立大学在读博士刘松桦提出了LinFusion架构,该架构采用了一种新颖的广义线性注意力机制作为传统自注意力的替代方案。LinFusion经过适度训练后,能够实现与原始Stable Diffusion(SD)相当甚至更好的性能,同时显著降低了时间和内存复杂度,使得在1块GPU上也能生成16K超高分辨率图像。
关键特性与设计
在研究近期提出的线性复杂性模型时,刘松桦确定了两个关键特性:注意力规范化和非因果推理。这些特性显著提升了高分辨率视觉生成的性能。LinFusion通过引入一种广义线性注意力范式,采用常见线性标记混合器的低秩近似,同时从预训练的SD中提取知识以初始化模型,降低了训练成本。
实验结果与应用
实验结果显示,LinFusion在推理时间和内存消耗上都有显著减少,尤其在生成16K分辨率图像时,模型能够高效运行,仅需1块GPU和1分钟的时间。测试表明,LinFusion能够生成高质量的16K分辨率图像,并展现出优异的零样本跨分辨率生成能力。此外,LinFusion无需额外调整即可兼容SD预训练插件(如ControlNet和IP Adapter)。
讲座信息与研究背景
刘松桦将在12月3日10点参与智猩猩AI新青年讲座,主讲《16K超高清图像生成——预训练扩散模型高效线性化》。他是新加坡国立大学的博士生,师从王鑫超教授,研究方向为高效数据合成及其在训练中的应用。刘松桦在国际会议和期刊上以第一作者身份发表了十余篇论文,并获得2023年度国家优秀自费留学生奖学金。
报名与参与
有意观看讲座的朋友可添加小助手“米娅”报名,已添加的朋友可以私信“米娅”发送“ANY256”进行报名。参与者将在群中进行观看和交流,期待更多人参与这一前沿技术的分享。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,深入关注大模型与AI智能体,及时搜罗生成式AI技术产品。