开源赛道太挤了!月之暗面开源新版Muon优化器

又「撞车」了。

开源赛道太挤了!月之暗面开源新版Muon优化器

原标题:开源赛道太挤了!月之暗面开源新版Muon优化器
文章来源:机器之心
内容字数:5559字

月之暗面开源高效优化器Muon:算力减半,效果翻倍

近日,月之暗面团队抢先DeepSeek,开源了其改进版的Muon优化器,并发布了基于Muon训练的3B/16B参数MoE模型Moonlight。该优化器在训练大型语言模型方面展现出显著优势,仅需约52%的AdamW训练FLOPs即可达到相当的性能,实现了算力减半,效果翻倍的目标。

  1. Muon优化器改进及高效性

    原始Muon优化器在小型语言模型训练中表现出色,但扩展到大模型时性能提升减弱。月之暗面团队通过添加权重衰减和一致的RMS更新两项关键技术解决了这个问题。权重衰减防止模型权重过度增长,而一致的RMS更新确保了不同形状矩阵之间更新的一致性,从而提高了Muon在大规模训练中的稳定性和效率。Scaling law实验表明,Muon的计算效率比AdamW提升了2倍。

  2. Moonlight模型及性能突破

    利用改进后的Muon优化器,月之暗面团队训练了Moonlight,一个3B/16B参数的MoE模型,训练数据量达5.7万亿tokens。Moonlight刷新了当前的“帕累托前沿”,在相同训练预算下,性能全面领先其他模型。它以更少的训练FLOPs获得了更好的性能,在语言、数学和编码等任务上均表现出色。

  3. 分布式Muon及实验结果

    团队还提出了一种基于ZeRO-1的分布式Muon解决方案,提高了训练效率。实验结果表明,通过调整RMS值,Muon可以与AdamW保持一致性,并显著提升模型性能。在与AdamW的对比实验中,Muon在计算最优设置下,仅需约52%的训练FLOPs即可达到与AdamW相当的性能。

  4. Muon在模型架构中的表现

    使用DeepSeek-V3-Small架构从头开始预训练的Moonlight模型,在与其他开源模型的比较中,展现出显著的性能优势,证明了Muon在模型架构中的有效性。此外,Muon还能使模型的权重更新更“多样化”,尤其在MoE模型中表现突出。在预训练和微调阶段都使用Muon,模型表现最佳。

  5. 开源贡献及未来研究

    月之暗面团队开源了Muon的内存优化且通信高效的实现代码,以及预训练、指令调优和中间检查点,为未来的研究提供了宝贵的资源。此次开源,再次体现了月之暗面在大型语言模型研究领域的领先地位。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...