原标题:抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好
文章来源:新智元
内容字数:3316字
优化Sdcpp框架提升图像生成速度
在AI生成图像领域,北京大学等研究团队对Stable-Diffusion.cpp(简称Sdcpp)框架进行了优化,通过引入Winograd算法和多项策略,显著提升了图像生成速度和内存效率。优化后的框架在生成速度上最高可提速4.79倍,为创作提供了更大的度。
1. Sdcpp框架概述
Sdcpp是Stable Diffusion模型的C/C++实现,旨在无外部依赖情况下在CPU和GPU上实现高效推理。该框架不仅加速了模型的运行,还显著减少了内存占用,尤其是在计算密集型的2D卷积运算方面。
2. 主要优化策略
研究团队采用了以下三种主要优化策略来提升性能:
(1)分步处理:将卷积操作拆解为预处理、逐元素乘法和后处理三个阶段,以提高运算效率。
(2)局部优化:通过优化数据加载方式,减少缓存切换,从而提升内存使用效率。
(3)并行处理:将关联性较小的运算分配到不同的计算线程与核心上,充分利用多线程和多核心架构,减少图像生成延迟,尤其在M系列Mac设备上优化了核心分工。
3. 多设备支持
优化后的Sdcpp框架支持多个设备和模型,包括主流的Stable Diffusion模型与不同硬件平台(如Mac、Android、AMD等),并扩展了LoRA和算子量化等功能,提升了用户的灵活性。
4. 显著的速度提升
实际测试表明,单卷积层的推理速度平均提升超过2倍,整体生成速度最高可达4.79倍。在生成高分辨率图像(如1024×1024)时,优化后的Sdcpp在M1 Pro和M2 Max上的推理速度提升超过4.6倍。
5. 生成效果的提升
在使用SDXL-Turbo模型进行图像生成时,优化后的Sdcpp不仅速度更快,生成的图像质量也有显著提升,细节更加丰富、层次更为分明。
6. 未来的研究方向
研究团队计划在未来继续优化更多操作符,提升模型量化的效率,并探索在更多设备上的性能提升,以确保用户能够在不同平台上生成高质量图像。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。