AIGC动态欢迎阅读
原标题:Mistral AI:探索LLM推理的吞吐、时延及成本空间
关键字:模型,内存,大小,硬件,解读
文章来源:AI前线
内容字数:13803字
内容摘要:
作者 |Timothée Lacroix
OneFlow编译
翻译|宛子琳、杨婷
选择正确的 LLM 推理栈意味着选择适合你的任务的正确模型,并配以适当的推理代码在适当的硬件上运行。本文介绍了流行的 LLM 推理堆栈和设置,详细说明其推理的成本构成;并讨论当前的开源模型以及如何充分利用它们,同时还涉及当前开源服务栈中仍然缺失的功能,以及未来模型将解锁的新功能。本文源自 Mistral AI 首席技术官 Timothée Lacroix 的演讲。他于 2015 年在 Facebook AI Research 担任工程师,于 2016 年至 2019 年间与École des Ponts 合作完成了关于推荐系统的张量分解的论文。2023 年他成为 Mistral AI 的联合创始人。Mistral AI 于近期发布了业内首个开源 MoE 大模型 Mixtral-8x7B。
本次演讲的很多内容都基于我在网上找到的信息或通过对第一个 LLaMA 版本模型进行实验时的发现。我认为,现在的 Mistral 更关注推理成本,而非训练成本。因此,我将分享推理成本的构成、吞吐、时延及其影响因素。
很多
原文链接:Mistral AI:探索LLM推理的吞吐、时延及成本空间
联系作者
文章来源:AI前线
作者微信:ai-front
作者简介:面向AI爱好者、开发者和科学家,提供AI领域技术资讯、一线业界实践案例、搜罗整理业界技术分享干货、AI论文解读。每周一节技术分享公开课,助力你全面拥抱人工智能技术。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...