单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

AIGC动态6个月前发布 量子位
8 0 0

单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

AIGC动态欢迎阅读

原标题:单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源
关键字:权重,精度,模型,团队,微软
文章来源:量子位
内容字数:4084字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAIFP8和更低的浮点数量化精度,不再是H100的“专利”了!
老黄想让大家用INT8/INT4,微软DeepSpeed团队在没有英伟达官方支持的条件下,硬生生在A100上跑起FP6。
测试结果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶尔超过INT4,而且拥有比后者更高的精度。
在此基础之上,还有端到端的大模型支持,目前已经开源并集成到了DeepSpeed等深度学习推理框架中。
这一成果对大模型的加速效果也是立竿见影——在这种框架下用单卡跑Llama,吞吐量比双卡还要高2.65倍。
一名机器学习研究人员看了后表示,微软的这项研究简直可以用crazy来形容。
表情包也第一时间上线,be like:
英伟达:只有H100支持FP8。
微软:Fine,我自己搞定。
那么,这个框架到底能实现什么样的效果,背后又采用了什么样的技术呢?
用FP6跑Llama,单卡比双卡还快在A100上使用FP6精度,带来的是内核级的性能提升。
研究人员选取了不同大小的Llama模型和OPT模型之中的线性层,在NVIDIA A100-40GB G


原文链接:单卡跑Llama 70B快过双卡,微软硬生生把FP6搞到了A100里 | 开源

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...