混合专家系统里根本没专家?开源MoE模型论文引网友热议

AIGC动态8个月前发布 量子位
8 0 0

混合专家系统里根本没专家?开源MoE模型论文引网友热议

AIGC动态欢迎阅读

原标题:混合专家系统里根本没专家?开源MoE模型论文引网友热议
关键字:专家,论文,领域,模型,发现
文章来源:量子位
内容字数:2455字

内容摘要:


克雷西 发自 凹非寺量子位 | 公众号 QbitAI红极一时的开源MoE模型Mixtral,论文终于新鲜出炉!
除了披露了更多技术细节,论文中还有一个结论引发了热烈讨论——
研究人员本想研究Mixtral是怎么根据话题分配专家的,结果发现专家的分配……和话题好像没什么关系。
而在大多数人的印象中,Mixtral里的8个专家,是分别负责处理不同领域的话题的……
论文的结论曝光后,不少网友开始认为“专家混合”这个说法,可能不那么贴切了:
于是,针对Mixtral真实的工作机制,有网友给出了这样的比喻:
所以,比起“专家的组合”,这样的工作方式更像是一种硬盘阵列或者负载均衡?
但也有网友表示了不同意见:
这个问题并不根属于MoE,因为自己之前见过的MoE模型中,是发现了真·专家分工的现象的。
那么,这究竟是怎么一回事呢?
实验未发现专家按领域分布在训练过程中,作者观察了Mixtral中是否有一些专家会针对某些特定领域进行专门化。
具体来说,作者计算了第0、15、31层在The Pile验证集的不同子集(包含不同领域的文档)上被选中的专家分布。
这些子集包括LaTeX格式的arXiv论文、生物


原文链接:混合专家系统里根本没专家?开源MoE模型论文引网友热议

联系作者

文章来源:量子位
作者微信:QbitAI
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...