扩散模型训练方法一直错了！谢赛宁：Representation matters

AIGC动态欢迎阅读

原标题：扩散模型训练方法一直错了！谢赛宁：Representation matters
关键字：表征,模型,报告,编码器,视觉
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：Panda、小舟Representation matters. Representation matters. Representation matters.是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」？他表示：「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言，表征也依然有用。基于此，他们提出了 REPA，即表征对齐技术，其能让「训练扩散 Transformer 变得比你想象的更简单。」Yann LeCun 也对他们的研究表示了认可：「我们知道，当使用自监督学习训练视觉编码器时，使用具有重构损失的解码器的效果远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明，即使你只对生成像素感兴趣（例如使用扩散 Transformer 生成漂亮图片），也应该包含特征预测损失，以便解码器的内部表征可以根据预训练的视觉编码器（例如 DINOv2）预测特征。」我们知道，在生成高维视觉数据方面，基于去噪的生成模型（如扩展模型和基于流的模型）的表现非常好，已经得到了广泛应用

原文链接：扩散模型训练方法一直错了！谢赛宁：Representation matters