Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光

AIGC动态12个月前发布 机器之心
53 0 0

Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光

AIGC动态欢迎阅读

原标题:Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光
关键字:专家,基准,模型,研究者,论文
文章来源:机器之心
内容字数:8066字

内容摘要:


机器之心报道
作者:陈萍、大盘鸡Mixtral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。前段时间,那个爆火整个开源社区的 Mixtral 8x7B MoE 模型论文放出了。
此前,由于 OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出,无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。要知道,很早之前就有人爆料,OpenAI 也是采用了「混合专家模型」(Mixture of Experts,MoE)的构架来搭建 GPT-4。
随着论文的放出,一些研究细节也被公布出来。论文地址:https://arxiv.org/pdf/2401.04088.pdf
项目地址:https://github.com/mistralai/mistral-src
论文主页:https://mistral.ai/news/mixtral-of-experts/
Mixtral 8x7B 是一种具有开放权重的稀疏专家混合模型 (SMoE),在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。Mi


原文链接:Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...