7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

AIGC动态3年前 (2023)发布新智元

AIGC动态欢迎阅读

原标题：7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023

文章来源：新智元

内容字数：8433字

内容摘要：新智元报道编辑：LRS【新智元导读】LLM不实用，小模型蒸馏才是「现实」的大模型应用路线，全面领先微调技术！土豪请无视。。。大型语言模型虽然性能优异，可以用零样本或少样本提示解决新任务，但LLM在实际应用部署时却很不实用，内存利用效率低，并且需要大量计算资源。比如运行一个1750亿参数的语言模型服务至少需要350GB的显存，而目前最先进的语言模型大多已超过5000亿参数量，很多研究团队都没有足够的…

原文链接：点此阅读原文：7.7亿参数，超越5400亿PaLM！UW谷歌提出「分步蒸馏」，只需80%训练数据｜ACL 2023