S-LoRA:一个GPU运行数千大模型成为可能

AIGC动态1年前 (2023)发布 机器之心
34 0 0

S-LoRA:一个GPU运行数千大模型成为可能

AIGC动态欢迎阅读

原标题:S-LoRA:一个GPU运行数千大模型成为可能

关键字:适配器,权重,张量,模型,内存

文章来源:机器之心

内容字数:5947字

内容摘要:机器之心报道编辑:蛋酱一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训练和服务成本会变得非常高昂。低秩适配(LowRank Adaptation,LoRA)是一种参数效率高的微调方法,通常用于将 base 模型适配到多种任务中,从而产生了大量从一个 base 模型衍生出来的 LoRA 适配程序。这种模式为服务过程…

原文链接:点此阅读原文:S-LoRA:一个GPU运行数千大模型成为可能

联系作者

文章来源:机器之心

作者微信:almosthuman2014

作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...