华科重磅发布MoE Jetpack框架：助力收敛速度提升8倍，准确率飞跃超30%！

原标题：收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024
文章来源：新智元
内容字数：5563字

华中科技大学的研究人员提出了一种新颖的框架——MoE Jetpack，旨在通过Checkpoint Recycling方法和SpheroMoE结构，将密集激活模型的预训练权重高效微调为混合专家（MoE）模型。这一方法显著提升了MoE模型在下游任务中的精度和收敛速度，减少了对预训练过程的依赖。

混合专家模型（MoE）通过动态激活网络的一部分结构，提高计算效率，能够在保持相对稳定的计算成本下大幅增加参数量，从而有效提升模型性能。然而，MoE模型通常需要在大型数据集上进行预训练，导致时间和资源的消耗极高，限制了其普及性。

MoE Jetpack的核心创新包括两个主要部分：

(1) Checkpoint Recycling：通过采样密集模型权重生成多样化的专家，作为MoE模型的初始化权重，从而加速模型的收敛和提升性能，避免了大规模预训练的需求。

(2) SpheroMoE层：通过交叉注意力机制优化专家分配，利用超球空间的投影提高微调过程的稳定性，并通过专家正则化方法减轻过拟合。

研究中采用了Checkpoint Recycling技术，通过四种主要的权重回收策略来初始化MoE模型。实验结果显示，在ImageNet-1K上，MoE Jetpack的收敛速度提高了2倍，准确率提升达2.8%；在小规模数据集上，收敛速度提升可达8倍，准确率提升超过30%。

MoE Jetpack框架通过有效利用预训练密集模型的权重，不仅降低了MoE模型的训练成本和资源需求，还提高了模型在下游任务中的性能。该框架为混合专家模型的研究与应用提供了新的可能，为研究者在普通计算资源下使用MoE模型提供了有力支持。

联系作者

文章来源：新智元
作者微信：
作者简介：智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人对人类社会与文明进化的影响，领航中国新智能时代。

文章版权归作者所有，未经允许请勿转载。

暂无评论...