英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强

AIGC动态欢迎阅读

原标题：英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强
关键字：模型,准确率,重要性,损失,深度
文章来源：机器之心
内容字数：0字

内容摘要：

机器之心报道
编辑：杜伟、陈陈、泽南小模型崛起了。上个月，Meta 发布了 Llama 3.1 系列模型，其中包括 Meta 迄今为止最大的 405B 模型，以及两个较小的模型，参数量分别为 700 亿和 80 亿。
Llama 3.1 被认为是引领了开源新时代。然而，新一代的模型虽然性能强大，但部署时仍需要大量计算资源。
因此，业界出现了另一种趋势，即开发小型语言模型 (SLM)，这种模型在许多语言任务中表现足够出色，部署起来也非常便宜。
最近，英伟达研究表明，结构化权重剪枝与知识蒸馏相结合，可以从初始较大的模型中逐步获得较小的语言模型。图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 也点赞转帖了该研究。
经过剪枝和蒸馏，英伟达研究团队将 Llama 3.1 8B 提炼为 Llama-3.1-Minitron 4B 开源了出来。这是英伟达在 Llama 3.1 开源系列中的第一个作品。
Llama-3.1-Minitron 4B 的表现优于类似大小的最先进的开源模型，包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。

原文链接：英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强