原标题:英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA
文章来源:新智元
内容字数:7982字
SANA 1.5:高效可扩展的文本生成图像模型
近年来,文本生成图像技术飞速发展,但模型规模的扩大也带来了巨大的计算成本。为了解决这一问题,英伟达联合MIT、清华、北大等机构的研究人员,在SANA 1.0的基础上,推出了SANA 1.5,一种高效可扩展的线性扩散Transformer模型。SANA 1.5通过三项创新,在保持甚至提升生成质量的同时,大幅降低了训练和推理成本。
1. 高效模型增长策略
SANA 1.5提出了一种高效的模型增长策略,能够将模型参数从16亿(20层)扩展到48亿(60层),同时显著减少计算资源消耗。该策略并非从头开始训练大模型,而是通过有策略地初始化额外模块,保留小模型的先验知识,从而减少约60%的训练时间。研究者比较了三种初始化策略,最终选择“部分保留初始化”方法,因为它简单且稳定。预训练的层继续发挥特征提取作用,新增层从恒等映射起步,逐步学习优化特征表示。
2. 模型深度剪枝技术
SANA 1.5引入了模型深度剪枝技术,通过分析Transformer块的输入输出相似性,识别并保留关键块,实现高效的模型压缩。这种方法受Minitron启发,头部和尾部块的重要性较高,而中间层则主要用于逐步优化生成结果。剪枝后,通过少量微调即可恢复模型质量,实现灵活的模型配置。实验表明,剪枝后的16亿参数模型能达到与完整的48亿参数模型相近的质量。
3. 推理时扩展策略
SANA 1.5提出了一种推理期间扩展策略,通过增加采样次数而非增加去噪步骤来提升生成质量。该策略利用视觉语言模型(VLM)对生成的图像进行评价和筛选,选择与文本提示匹配度最高的图像。实验结果显示,这种方法将GenEval分数从0.72提升至0.80,显著提高了生成图像的质量和准确性。
4. 内存高效优化器
为了实现大模型的高效训练与微调,SANA 1.5使用了CAME-8bit优化器,它比AdamW-32bit减少了约8倍的内存使用,同时保持训练稳定性。这使得在消费级GPU上微调数十亿参数的模型成为可能。
5. SANA 1.5的性能
SANA 1.5在GenEval基准测试中达到了最先进的性能。与传统方法相比,其训练收敛速度快2.5倍,GenEval分数从0.66提升至0.80。SANA-4.8B模型的参数数量远小于其他先进模型,但生成质量却能达到甚至超越它们。此外,SANA 1.5在推理速度和吞吐量方面也具有显著优势。
6. SANA 1.0的核心创新
SANA 1.0的核心创新在于其高效的设计:深度压缩自动编码器(32倍压缩比)、线性DiT(线性注意力机制,降低计算复杂度)、仅解码文本编码器(Gemma模型)以及高效的训练和采样方法(Flow-DPM-Solver)。这些创新使得SANA-0.6B模型在保持与大型扩散模型相当的生成质量的同时,模型体积缩小了20倍,数据处理能力提升了100倍以上,甚至能在普通笔记本电脑上运行。
总而言之,SANA 1.5通过高效的模型增长、深度剪枝和推理时扩展策略,在文本生成图像任务中取得了显著的成果,为构建高效可扩展的大模型提供了新的思路。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。