剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器
关键字：模型,编码器,文本,知识,任务
文章来源：机器之心
内容字数：7579字

内容摘要：

机器之心专栏
机器之心编辑部PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。论文链接：https://arxiv.org/abs/2402.08327
DEMO 链接：https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/
项目主页链接：https://preflmr.github.io/
论文标题：PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal
Retrievers
背景
尽管多模态大模型（例如 GPT4-Vision、Gemini 等）展现出了强大的通用图文理解能力，它们在回答需要专业知识的问题时表现依然不尽人意。即使 GPT4-Vision 也无法回答知识密集型问题（图一上），这成为了很多企业级落地应用的瓶颈

原文链接：剑桥团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器