7B新王！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

AIGC动态2年前 (2024)发布新智元

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

AIGC动态欢迎阅读

原标题：7B新王！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少
关键字：模型,模块,注意力,智能,架构
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：LRS
【新智元导读】Zamba2-7B是一款小型语言模型，在保持输出质量的同时，通过创新架构实现了比同类模型更快的推理速度和更低的内存占用，在图像描述等任务上表现出色，能在各种边缘设备和消费级GPU上高效运行。除了不断增加语言模型的尺寸来提升性能外，小语言模型（SLM）赛道也是越来越卷，研究人员在保证输出质量尽量不变的情况下，不断降低模型尺寸，减少内存占用量，提升推理效率，从而能够在各种边缘计算设备和消费级GPU上部署使用。
最近，Zyphra发布Zamba2-7B模型，在质量和性能上都优于Mistral、Google的Gemma和Meta的Llama3系列同尺寸小语言模型；在推理效率上，与 Llama3-8B 等模型相比，第一个token的时间缩短了 25%，每秒token数量提高了 20%，并且内存使用量显着减少。Instruct下载链接：https://huggingface.co/Zyphra/Zamba2-7B-Instruct
base下载链接：https://huggingface.co/Zyphra/Zamba2-7B
相对于上一代Zamba1-7B

原文链接：7B新王！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少