为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI

AIGC动态2个月前发布 量子位
2 0 0

来自360人工智能研究院

为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI

原标题:为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘 | AAAI
文章来源:量子位
内容字数:3545字

360人工智能研究院提出IAA:解决多模态大模型灾难性遗忘问题

本文总结了360人工智能研究院提出的IAA (Inner-Adaptor-Architecture) 架构,该架构旨在解决当前多模态大模型(LMM)中存在的灾难性遗忘问题,并已被AAAI 2025接收,代码已开源。

1. 多模态大模型的挑战:灾难性遗忘

当前主流的桥接式LMM结构,例如LLaVA系列、QwenVL、DeepSeekVL等,为了提升多模态理解能力,通常需要打开内嵌LLM的参数进行多模态训练。这种方法虽然能提升多模态任务性能,但却会导致LLM在文本理解能力上出现严重的“灾难性遗忘”,最终需要部署多模态模型,造成成本增加。

2. IAA的灵感来源:文生图领域的ControlNet

360人工智能研究院受到文生图领域ControlNet插件化机制的启发,提出了IAA架构。ControlNet允许在不改变基座模型的情况下,通过插件添加新的功能。IAA试图将这种思路应用于语言模型,从而解决多模态模型的灾难性遗忘问题。

3. IAA的核心思路:插件化多模态理解能力

IAA的核心思想是将多模态理解能力作为插件添加到基座语言模型之上。与直接修改基座模型参数不同,IAA通过新增的插入层来处理多模态信息,从而避免了对基座模型参数的修改,有效防止了灾难性遗忘。这种插件化设计也使得IAA可以灵活地添加其他专业插件,例如代码或数学插件,从而扩展基座模型的能力。

4. IAA的优势:高效、经济、灵活

IAA具有以下优势:

  1. 避免了灾难性遗忘:通过保持基座语言模型参数不变,IAA有效避免了多模态训练导致的文本理解能力下降。
  2. 降低部署成本:推理时只需要部署一套模型权重,text-only任务和多模态任务分别走不同的流程,避免了多套模型的部署成本。
  3. 支持插件化扩展:IAA可以灵活地添加各种插件,以增强基座模型在特定任务上的能力,例如代码、数学等。

5. 实验结果和未来展望

实验结果表明,IAA在保持模型原有能力的同时,能有效提升其在多模态任务上的表现。IAA架构为构建高效、经济、灵活的多模态语言模型生态体系提供了一种新的思路。

6. 360人工智能研究院的AI布局

360人工智能研究院在“All in AI”战略下,积极研发多模态理解和生成大模型,取得了一系列成果,包括360VL、BDM、HiCo以及Qihoo-T2X等。IAA和BDM的成果被AAAI 2025接收,展现了该研究院在AI领域的强大实力。

总之,IAA架构为解决多模态大模型的灾难性遗忘问题提供了一种有效的方案,其插件化设计也为构建更加灵活和强大的语言模型生态体系奠定了基础。


联系作者

文章来源:量子位
作者微信:
作者简介:追踪人工智能新趋势,关注科技行业新突破

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...