评测超Llama2,混合专家模型(MoE)会是大模型新方向吗?
AIGC动态欢迎阅读
原标题:评测超Llama2,混合专家模型(MoE)会是大模型新方向吗?
关键字:模型,专家,解读,政策,门控
文章来源:Founder Park
内容字数:12970字
内容摘要:
混合专家模型(MoE)成为最近关注的热点。
先是 Reddit 上一篇关于 GPT-4 结构的猜测帖,暗示了 GPT-4 可能是由 16 个子模块组成的专家模型(MoE)的混合体。据说,这 16 个子模块中的每一个 MoE 都有 1110 亿个参数(作为参考,GPT-3 有 1750 亿个参数)。尽管不能 100% 确定,但 GPT-4 是一个 MoE 组成的集群这个事很可能是真的。
然后是法国 AI 公司 MistralAI 发布了全球首个基于混合专家技术的大模型 Mistral-8x7B-MoE,是 8 个 70 亿参数规模大模型的混合。
主要特点如下:
它可以非常优雅地处理 32K 上下文数据;
除了英语外,在法语、德语、意大利语和西班牙语表现也很好;
在代码能力上表现很强;
指令微调后 MT-Bench 的得分 8.3 分(GPT-3.5 是 8.32、LLaMA2 70B 是 6.86);
Mistral-7B×8-MoE 是首个被证明有效的开源的 MoE LLM,相比于早期的 Switch Transformer、GLaM 等研究,Mistral-7B×8-MoE 证明了
原文链接:评测超Llama2,混合专家模型(MoE)会是大模型新方向吗?
联系作者
文章来源:Founder Park
作者微信:Founder-Park
作者简介:来自极客公园,专注与科技创业者聊「真问题」。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...