Mistral AI：探索LLM推理的吞吐、时延及成本空间

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：Mistral AI：探索LLM推理的吞吐、时延及成本空间
关键字：模型,内存,大小,硬件,解读
文章来源：AI前线
内容字数：13803字

内容摘要：

作者 |Timothée Lacroix
OneFlow编译
翻译｜宛子琳、杨婷
选择正确的 LLM 推理栈意味着选择适合你的任务的正确模型，并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的 LLM 推理堆栈和设置，详细说明其推理的成本构成；并讨论当前的开源模型以及如何充分利用它们，同时还涉及当前开源服务栈中仍然缺失的功能，以及未来模型将解锁的新功能。本文源自 Mistral AI 首席技术官 Timothée Lacroix 的演讲。他于 2015 年在 Facebook AI Research 担任工程师，于 2016 年至 2019 年间与École des Ponts 合作完成了关于推荐系统的张量分解的论文。2023 年他成为 Mistral AI 的联合创始人。Mistral AI 于近期发布了业内首个开源 MoE 大模型 Mixtral-8x7B。
本次演讲的很多内容都基于我在网上找到的信息或通过对第一个 LLaMA 版本模型进行实验时的发现。我认为，现在的 Mistral 更关注推理成本，而非训练成本。因此，我将分享推理成本的构成、吞吐、时延及其影响因素。
很多

原文链接：Mistral AI：探索LLM推理的吞吐、时延及成本空间