英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

AIGC动态欢迎阅读

原标题:英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
关键字:模型,准确率,重要性,损失,深度
文章来源:机器之心
内容字数:0字

内容摘要:


机器之心报道
编辑:杜伟、陈陈、泽南小模型崛起了。上个月,Meta 发布了 Llama 3.1 系列模型,其中包括 Meta 迄今为止最大的 405B 模型,以及两个较小的模型,参数量分别为 700 亿和 80 亿。
Llama 3.1 被认为是引领了开源新时代。然而,新一代的模型虽然性能强大,但部署时仍需要大量计算资源。
因此,业界出现了另一种趋势,即开发小型语言模型 (SLM),这种模型在许多语言任务中表现足够出色,部署起来也非常便宜。
最近,英伟达研究表明,结构化权重剪枝与知识蒸馏相结合,可以从初始较大的模型中逐步获得较小的语言模型。图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 也点赞转帖了该研究。
经过剪枝和蒸馏,英伟达研究团队将 Llama 3.1 8B 提炼为 Llama-3.1-Minitron 4B 开源了出来。这是英伟达在 Llama 3.1 开源系列中的第一个作品。
Llama-3.1-Minitron 4B 的表现优于类似大小的最先进的开源模型,包括 Minitron 4B、Phi-2 2.7B、Gemma2 2.6B 和 Qwen2-1.5B。


原文链接:英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强

联系作者

文章来源:机器之心
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...