几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling
关键字：模型,系数,梯度,结构,特征
文章来源：新智元
内容字数：6561字

内容摘要：

新智元报道编辑：LRS 好困
【新智元导读】本文提出了扩散模型中UNet的long skip connection的scaling操作可以有助于模型稳定训练的分析，目前已被NeurIPS 2023录用。同时，该分析还可以解释扩散模型中常用但未知原理的1/√2 scaling操作能加速训练的现象。在标准的UNet结构中，long skip connection上的scaling系数一般为1。
然而，在一些著名的扩散模型工作中，比如Imagen， Score-based generative model，以及SR3等等，它们都设置了，并发现这样的设置可以有效加速扩散模型的训练。质疑Scaling然而，Imagen等模型对skip connection的Scaling操作在原论文中并没有具体的分析，只是说这样设置有助于加速扩散模型的训练。
首先，这种经验上的展示，让我们并搞不清楚到底这种设置发挥了什么作用？
另外，我们也不清楚是否只能设置，还是说可以使用其他的常数？
不同位置的skip connection的「地位」一样吗，为什么使用一样的常数？
对此，作者有非常多的问号……理解Scali

原文链接：几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling