图解Mixtral 8 * 7b推理优化原理与源码实现

AIGC动态1年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：图解Mixtral 8 * 7b推理优化原理与源码实现
关键字：解读,报告,腾讯,阶段,代码
文章来源：算法邦
内容字数：17936字

内容摘要：

智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会，阿里巴巴通义千问大模型技术负责人周畅，潞晨科技创始人尤洋，生数科技CEO唐家渝，优必选研究院执行院长焦继超，科大讯飞人形机器人首席科学家季超，DeepWisdom合伙人徐宗泽，腾讯研究科学家张驰，前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告，欢迎报名。大家好，在写这篇文章时，本来是想打算介绍Mixtral 8 * 7b具体模型架构的。但是代码读着读着就发现：
最精彩的MoE部分，其相关原理在之前的文章中已经详细介绍过
整体来看Mixtral 8 * 7b的模型架构代码，写得非常清楚，几乎没有理解难点。
就在我以为Mixtral的代码已无更多可写时，我注意到了它在推理时用到的一些trick，具体为：
Sliding Window Attention (SWA，滑动窗口Attention)
Rolling Buffer Cache（也被称为Rotating Buffer Cache，即旋转式存储的KV cache）
Long-context Chunking（长上下文场景下的chunking策略，配

原文链接：图解Mixtral 8 * 7b推理优化原理与源码实现