在多模态大模型的训练中,也能显著提升复杂视觉推理的表现。
LLM2CLIP:多模态领域的创新突破
在当今多模态领域,CLIP 模型以其卓越的视觉与文本对齐能力推动了视觉基础模型的发展。尽管 CLIP 通过对大规模图文对的对比学习取得了一定的成功,但在处理长文本和复杂描述方面仍然存在显著限制。为了解决这一问题,来自同济大学和微软的研究团队提出了 LLM2CLIP,将大语言模型(LLM)作为 CLIP 的强力“私教”,显著提升 CLIP 的多模态表示学习能力。
1. LLM2CLIP 的背景和意义
CLIP 模型的成功标志着视觉与语言领域的一次,其采用图文对的对比学习,使视觉特征更加丰富。然而,CLIP 在处理复杂文本时的能力有限,而大语言模型(如 GPT-4)具备更强的文本理解与生成能力。将 LLM 的能力引入 CLIP,能够极大拓宽其性能上限。
2. LLM2CLIP 的核心创新
研究团队设计了一种新的图像描述对比微调方法——Caption-Contrastive(CC)finetuning,通过标注每张图像多个描述并进行对比学习,以提升 LLM 对于不同图像描述的区分度。实验结果显示,该方法显著提高了图像描述检索的准确率,使得 LLM 能有效支持 CLIP 的表示学习。
3. LLM2CLIP 的实际应用效果
LLM2CLIP 在实际应用中表现优异,尤其在零样本检索任务上获得了前所未有的性能提升。尽管 LLM2CLIP 仅在英文数据上进行训练,却在中文图文检索任务中超越了中文 CLIP 模型,同时也显著提升了多模态大模型 LLaVA 在复杂视觉推理任务中的表现。
4. 未来展望
LLM2CLIP 的目标是推动大模型的能力反哺多模态社区,并为基础模型的预训练方法带来新的突破。研究团队希望通过 LLM2CLIP 技术,使现有的预训练基础模型更加强大,并逐步发布经过微调的主流跨模态基础模型,为更多应用场景提供高效工具。
总之,LLM2CLIP 的推出为视觉与语言的结合提供了新的可能性,极大地推动了多模态研究的发展。
联系作者
文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台