从时间和空间优化扩散模型
原标题:突破瓶颈!北航ETH等首次将扩散模型完全量化至1bit,28倍存储节省+52.7倍效率提升
文章来源:量子位
内容字数:13960字
BiDM: 将扩散模型量化到1比特极限,实现SOTA
来自北航、ETH等机构的研究人员提出了一种名为BiDM的新方法,首次将扩散模型(DMs)的权重和激活完全二值化,并在图像生成任务中取得了显著的性能提升,创造了新的SOTA。
1. 扩散模型量化的挑战
扩散模型因其高质量的生成能力而备受关注,但其高计算成本限制了其在资源受限场景下的应用。模型压缩,特别是量化,成为关键。现有研究主要集中在权重量化,而对权重和激活同时进行1比特量化(完全二值化)则极具挑战性:扩散模型的中间表示与时间步密切相关,高度动态的激活范围在二值化后难以保持;同时,生成模型需要输出完整的图像,高度离散的参数和特征空间使得训练过程难以收敛。
2. BiDM方法的创新
BiDM旨在克服完全二值化带来的挑战,包含两项主要创新:
- 时间步友好二值结构 (TBS): 针对扩散模型激活特征与时间步高度相关的特点,TBS利用可学习的激活二值化器匹配动态激活范围,并设计跨时间步的特征连接,利用相邻时间步特征相似性增强表示能力。
- 空间分块蒸馏 (SPD): 针对图像生成任务的空间局部性,SPD将特征划分为小块,并对每个小块计算空间自注意力,引导二值扩散模型更好地学习局部特征,从而更有效地进行蒸馏。
TBS通过可学习的缩放因子和跨时间步连接,自适应地调整激活范围并利用时间步之间的相似性。SPD则通过空间分块和自注意力机制,更有效地进行蒸馏,从而提升模型性能。
3. 实验结果与分析
实验结果表明,BiDM在多个数据集(CIFAR-10,LSUN-Bedrooms,LSUN-Churches,FFHQ)和模型(像素空间扩散模型和潜在空间扩散模型)上均取得了显著的性能提升,远超现有SOTA方法。例如,在LSUN-Bedrooms 256×256数据集上,BiDM的FID分数为22.74,远低于现有最佳基线方法的59.44,同时实现了28倍的存储节省和52.7倍的操作效率提升。
消融实验验证了TBS和SPD的有效性,两者结合能取得最佳效果。效率分析也表明BiDM在极高的压缩率下仍能保持良好的生成质量。
4. 结论
BiDM是首个实现扩散模型完全二值化的成功方法,它在极端压缩率下取得了令人印象深刻的生成性能,为扩散模型在资源受限场景下的应用提供了新的可能性。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破