Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开

AIGC动态2年前 (2023)发布机器之心

AIGC动态欢迎阅读

原标题：Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开
关键字：吞吐量,性能,报告,大小,时间
文章来源：机器之心
内容字数：7304字

内容摘要：

机器之心报道
编辑：杜伟、小舟这是为数不多深入比较使用消费级 GPU（RTX 3090、4090）和服务器显卡（A800）进行大模型预训练、微调和推理的论文。
大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而，不同硬件和软件堆栈的运行时性能可能存在很大差异，这使得选择最佳配置变得困难。最近，一篇题为《Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models》的新论文从宏观和微观的角度详细分析了 LLM 训练、微调、推理的运行时性能。论文地址：https://arxiv.org/pdf/2311.03687.pdf
具体来说，该研究首先在三个 8-GPU 上对不同规模（7B、13B 和 70B 参数）的 LLM，面向预训练、微调、服务进行端到端的性能基准测试，涉及具有或不具有单独优化技术的平台，

原文链接：Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开