RAR使得标准的自回归图像生成器能够实现SOTA性能。
原标题:首次超越扩散模型和非自回归Transformer模型!字节开源RAR:自回归生成最新SOTA!
文章来源:智猩猩GenAI
内容字数:13282字
RAR: 随机排列自回归训练策略,赋能SOTA图像生成
本文介绍了一种名为RAR(Randomized Autoregressive)的全新训练策略,它显著提升了标准自回归图像生成器的性能,使其达到甚至超越了当前最先进水平(SOTA)。RAR的核心在于巧妙地结合了随机排列和自回归训练,打破了传统自回归模型在视觉任务中单向上下文建模的限制,并保持了与语言建模框架的兼容性。
1. RAR的核心思想:打破单向限制,拥抱双向上下文
传统的自回归模型受限于因果注意力机制,只能利用单向上下文信息。而RAR通过在训练过程中随机排列输入图像的token序列,最大化所有可能排列顺序的期望似然值。这使得模型能够学习到图像中token之间的双向关系,有效利用双向上下文信息,提升生成质量。
2. 退火训练策略:平衡探索与利用
为了避免随机排列带来的训练不稳定性,RAR采用了一种创新的退火训练策略。训练初期,输入序列以较高的概率被随机排列;随着训练的进行,该概率逐渐线性衰减至0,最终回归到标准的光栅扫描顺序。这种策略使得模型在训练初期充分探索各种上下文排列,并在后期收敛到高效的扫描顺序,平衡了探索与利用。
3. 目标感知位置嵌入:解决排列带来的歧义
随机排列可能会导致模型在预测过程现歧义。为了解决这个问题,RAR引入了目标感知位置嵌入,它编码了下一个要预测的token信息,从而避免了不同排列顺序下相同特征产生相同预测的问题。
4. 与语言建模框架的兼容性:高效且强大
RAR在提升图像生成性能的同时,保持了自回归建模的核心结构,这使得它与大语言模型(LLM)的优化技术(如KV-cache)完全兼容。这不仅提高了训练效率,也使得RAR更容易应用于多模态统一模型。
5. 显著的性能提升:超越SOTA
在ImageNet-256基准测试中,RAR取得了1.48的FID分数,显著超越了之前的自回归图像生成器,甚至优于领先的基于扩散和掩码Transformer的方法。不同尺寸的RAR模型都展现出良好的可扩展性,更大的模型尺寸带来更好的性能。
6. 高效的采样速度:得益于LLM优化技术
RAR与LLM优化技术兼容,使其采样速度远高于其他方法,例如比MaskBit快11.9倍,比MAR-H快27.7倍。这使得RAR在实际应用中更具优势。
7. 总结
RAR通过简单而有效的随机排列自回归训练策略,显著提升了自回归图像生成器的性能,达到了SOTA水平。其与语言建模框架的兼容性以及高效的采样速度,使其成为一个极具潜力的图像生成方法,并为未来多模态模型的发展提供了新的方向。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下公众号之一,专注于生成式人工智能。