AIGC动态欢迎阅读
原标题:图解Mixtral 8 * 7b推理优化原理与源码实现
关键字:解读,报告,腾讯,阶段,代码
文章来源:算法邦
内容字数:17936字
内容摘要:
智猩猩与智东西将于4月18-19日在北京共同举办2024中国生成式AI大会,阿里巴巴通义千问大模型技术负责人周畅,潞晨科技创始人尤洋,生数科技CEO唐家渝,优必选研究院执行院长焦继超,科大讯飞人形机器人首席科学家季超,DeepWisdom合伙人徐宗泽,腾讯研究科学家张驰,前Meta首席工程负责人胡鲁辉等首批嘉宾已确认带来演讲和报告,欢迎报名。大家好,在写这篇文章时,本来是想打算介绍Mixtral 8 * 7b具体模型架构的。但是代码读着读着就发现:
最精彩的MoE部分,其相关原理在之前的文章中已经详细介绍过
整体来看Mixtral 8 * 7b的模型架构代码,写得非常清楚,几乎没有理解难点。
就在我以为Mixtral的代码已无更多可写时,我注意到了它在推理时用到的一些trick,具体为:
Sliding Window Attention (SWA,滑动窗口Attention)
Rolling Buffer Cache(也被称为Rotating Buffer Cache,即旋转式存储的KV cache)
Long-context Chunking(长上下文场景下的chunking策略,配
原文链接:图解Mixtral 8 * 7b推理优化原理与源码实现
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...