将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

AIGC动态11个月前发布 机器之心
55 0 0

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

AIGC动态欢迎阅读

原标题:将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B
关键字:模型,报告,专家,性能,参数
文章来源:机器之心
内容字数:5828字

内容摘要:


机器之心专栏
机器之心编辑部对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。
基于此,来自北京大学、中山大学等机构的研究者联合提出了一种新颖的 LVLM 训练策略 ——MoE-Tuning。MoE-Tuning可以构建参数数量惊人但计算成本恒定的稀疏模型,并有效解决通常与多模态学习和模型稀疏性相关的性能下降问题。该研究还提出了一种基于 MoE 的新型稀疏 LVLM 架构 ——MoE-LLaVA 框架。该框架独特地在部署过程中通过路由算法仅激活 top-k 专家(expert),其余专家保持非活动(inactive)状态。论文地址:https://arxiv.org/abs/2401.15947
项目地址:https://github.com/PKU-YuanGroup/MoE-LLaVA
Demo地址:https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
论文题目:MoE-LLaVA: Mixture of Experts


原文链接:将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...