S-LoRA：一个GPU运行数千大模型成为可能

AIGC动态3年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：S-LoRA：一个GPU运行数千大模型成为可能

文章来源：机器之心

内容字数：5947字

内容摘要：机器之心报道编辑：蛋酱一般来说，大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是，当针对众多任务（如个性化助手）对 base 模型进行微调时，训练和服务成本会变得非常高昂。低秩适配（LowRank Adaptation，LoRA）是一种参数效率高的微调方法，通常用于将 base 模型适配到多种任务中，从而产生了大量从一个 base 模型衍生出来的 LoRA 适配程序。这种模式为服务过程…

原文链接：点此阅读原文：S-LoRA：一个GPU运行数千大模型成为可能