将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B
关键字：模型,报告,专家,性能,参数
文章来源：机器之心
内容字数：5828字

内容摘要：

机器之心专栏
机器之心编辑部对于大型视觉语言模型（LVLM）而言，扩展模型可以有效提高模型性能。然而，扩大参数规模会显著增加训练和推理成本，因为计算中每个 token 都会激活所有模型参数。
基于此，来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning可以构建参数数量惊人但计算成本恒定的稀疏模型，并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路由算法仅激活 top-k 专家（expert），其余专家保持非活动（inactive）状态。论文地址：https://arxiv.org/abs/2401.15947
项目地址：https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo地址：https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
论文题目：MoE-LLaVA: Mixture of Experts

原文链接：将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B