多模态大模型学杂了能力反下降？新研究：MoE+通用专家解决冲突

AIGC动态2年前 (2023)发布量子位

AIGC动态欢迎阅读

原标题：多模态大模型学杂了能力反下降？新研究：MoE+通用专家解决冲突
关键字：华为,任务,模型,专家,指令
文章来源：量子位
内容字数：4906字

内容摘要：

港科大&南科大&华为诺亚方舟实验室量子位 | 公众号 QbitAI微调，能让通用大模型更加适配具体的行业应用。
但现在，研究人员们却发现：
对多模态大模型做“多任务指令微调”，大模型可能会“学得多错得多”，因为不同任务之间的冲突，导致泛化能力下降。
△多模态指令微调存在任务冲突举个例子，多模态问答任务可能要求回复尽可能简洁准确，文档理解任务却会反过来要求大模型尽可能详细地做出描述。
不同下游任务指令微调数据分布差异较大，导致一个大模型难以在多个下游任务中均达到最优性能。
如何解决这个问题？
来自香港科技大学、南方科技大学和华为诺亚方舟实验室的联合研究团队，受MoE（混合专家模型）开源大模型Mixtral-8×7B的启发，提出利用稀疏专家模型，打造下游任务泛化性能更好、理解能力更强的多模态大模型。
具体细节，一起来看。
多模态指令微调存在任务冲突为了验证多模态指令微调中不同类型任务数据对模型性能的影响，研究人员将数据进行如下划分：
VQA（视觉问答）：VQAv2、OKVQA、A-OKVQA、OCRVQA，
Captioning（图像描述）：COCO Caption、Web CapFilt

原文链接：多模态大模型学杂了能力反下降？新研究：MoE+通用专家解决冲突