来自360人工智能研究院
原标题:为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI
文章来源:量子位
内容字数:3545字
多模态大模型的灾难性遗忘问题及其解决方案
随着人工智能的发展,多模态大模型(LMM)在视觉和语言理解方面的能力不断提升。然而,在这一过程中,内嵌的语言模型常常面临“灾难性遗忘”的问题,即在多模态训练中,模型的文本理解能力下降。本文将介绍360人工智能研究院提出的IAA(Inner Adaptor Architecture)解决方案,该研究成果已被AAAI会议接收并开源。
1. 灾难性遗忘的背景
当前主流的多模态大模型,如LLaVA系列,采用桥接式结构,通过模态桥接器连接视觉编码器与语言模型。这种结构虽然简单且训练成本低,但在多模态训练中,语言模型的参数需要参与学习,从而导致文本能力的下降。这一现象使得多模态模型往往需要部署,增加了应用的经济成本。
2. IAA的核心思路
IAA的核心思想是借鉴文生图领域的ControlNet结构,将多模态理解能力作为插件添加到基座语言模型之上。该方法不仅避免了灾难性遗忘问题,还允许在保持语言模型原有能力的前提下,提升其在多模态任务上的表现。
3. IAA插件架构的特点
IAA的设计保持了基座语言模型的参数不变,通过新增的插入层专门处理多模态知识的学习。推理时,IAA网络只需部署一套模型权重,能够有效减少部署成本。此外,IAA结构不仅适用于多模态任务,也可用于增强其他专业任务(如代码和数学)的能力。
4. 实验验证与应用前景
在通用多模态基准测试中,IAA在保持模型原有能力的同时,显著提升了多模态任务的表现。这一创新架构有望为多模态理解和生成大模型的发展提供全新思路,并在实际应用中降低成本。
5. 结论
360人工智能研究院的IAA研究展示了如何在多模态大模型中有效解决灾难性遗忘的问题,为人工智能的多模态理解能力的进一步发展奠定了基础。未来,IAA有望在更广泛的领域中得到应用,推动AI技术的不断进步。
联系作者
文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破