单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源

AIGC动态1年前 (2024)发布量子位

AIGC动态欢迎阅读

原标题：单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源
关键字：权重,精度,模型,团队,微软
文章来源：量子位
内容字数：4084字

内容摘要：

克雷西发自凹非寺量子位 | 公众号 QbitAIFP8和更低的浮点数量化精度，不再是H100的“专利”了！
老黄想让大家用INT8/INT4，微软DeepSpeed团队在没有英伟达官方支持的条件下，硬生生在A100上跑起FP6。
测试结果表明，新方法TC-FPx在A100上的FP6量化，速度接近甚至偶尔超过INT4，而且拥有比后者更高的精度。
在此基础之上，还有端到端的大模型支持，目前已经开源并集成到了DeepSpeed等深度学习推理框架中。
这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama，吞吐量比双卡还要高2.65倍。
一名机器学习研究人员看了后表示，微软的这项研究简直可以用crazy来形容。
表情包也第一时间上线，be like：
英伟达：只有H100支持FP8。
微软：Fine，我自己搞定。
那么，这个框架到底能实现什么样的效果，背后又采用了什么样的技术呢？
用FP6跑Llama，单卡比双卡还快在A100上使用FP6精度，带来的是内核级的性能提升。
研究人员选取了不同大小的Llama模型和OPT模型之中的线性层，在NVIDIA A100-40GB G

原文链接：单卡跑Llama 70B快过双卡，微软硬生生把FP6搞到了A100里 | 开源