显卡在偷懒?阿里大模型创作平台 MuseAI 极速模型切换技术提升 AI 创作效率

MuseAI 是一款专为设计专业人士量身定制的先进 AI 绘图工具,旨在提供卓越的绘画体验,并为设计团队打造一个既稳定又易于管理的创作平台。

显卡在偷懒?阿里大模型创作平台 MuseAI 极速模型切换技术提升 AI 创作效率

原标题:显卡在偷懒?阿里大模型创作平台 MuseAI 极速模型切换技术提升 AI 创作效率
文章来源:AI前线
内容字数:32246字

阿里MuseAI平台AIGC创作工作台性能优化实践

本文介绍了阿里巴巴爱橙科技研发的面向阿里内部的AIGC创作工作台MuseAI(以及其对公众开放的魔搭社区AIGC专区)的性能优化实践。文章重点分析了平台因频繁切换Diffusion Pipeline导致的用户体验和资源浪费问题,并从网络传输、内存管理、Host-to-Device、模型量化等多个方面进行了优化。

1. 性能问题与挑战

MuseAI集成了大量的模型(基础模型、LoRA微调模型、ControlNet控制模型及辅助性模型),导致频繁的模型切换。这带来了以下性能问题:

  1. 端到端生成时间过长:模型下载、加载和切换时间占据了大部分时间。
  2. 缓存未命中率高:大量模型难以全部缓存到磁盘或内存。
  3. GPU资源浪费:长时间的模型加载导致GPU空闲。

2. 优化策略与方法

为了解决上述问题,MuseAI团队从以下几个方面进行了优化:

2.1 模型加载优化
  1. 存储介质选择:根据业务特性,公司内部使用高性能分布式存储“盘古”+fsfuse,公有云使用NAS。fsfuse通过缓存机制和Direct I/O技术提升读取效率。
  2. NAS最佳实践:调整Linux内核参数(nconnect),增加NAS与客户端之间的连接数,提高带宽利用率。采用多线程并发读取模型文件。
  3. 盘古+fsfuse最佳实践:统一挂载模型父目录,采用顺序读取模式,充分利用fsfuse的预读取和缓存机制,使用Direct I/O技术。
2.2 模型切换优化
  1. 执行顺序优化:先加载state dict,再将模型迁移到GPU,避免不必要的CPU-GPU数据拷贝。
  2. H2D传输性能优化:使用内存池管理pinned memory,减少内存分配和拷贝次数,并使用多线程并发传输。
  3. Skip init技术:跳过nn.Module构造时冗余的初始化过程,减少加载时间。
2.3 内存管理与复用
  1. Pinned memory内存池:避免重复malloc内存,减少内存分配和释放操作。
  2. 直接读取到pinned memory:消除一次内存拷贝,提高效率。
  3. 两级内存池设计:根据模型大小分配内存,实现内存复用。
  4. 在pinned memory上构造state_dict:直接在预分配的pinned memory中构造tensor,减少内存拷贝。
2.4 模型量化

将模型转换为FP8精度,减少模型大小和显存占用,利用新一代GPU架构的FP8计算能力提升推理速度。

2.5 T5化部署 (技术储备)

将T5模型部署为Embedding Server,通过RPC调用获取文本嵌入向量,减少模型加载和卸载操作。该方案因工程复杂度和稳定性风险,最终未应用到生产环境。

3. 实验结果与分析

实验结果显示,优化后的MuseAI在冷启动和模型切换性能方面均优于Diffusers和WebUI-forge,尤其是在NAS环境下,性能提升显著。

4. 结论

通过一系列优化措施,MuseAI平台显著提升了模型加载和切换速度,改善了用户体验,并有效降低了资源浪费。这项工作为AIGC平台的性能优化提供了宝贵的经验和参考。


联系作者

文章来源:AI前线
作者微信:
作者简介:面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...