剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

AIGC动态9个月前发布 机器之心
46 0 0

剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

AIGC动态欢迎阅读

原标题:剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
关键字:模型,编码器,文本,知识,任务
文章来源:机器之心
内容字数:7579字

内容摘要:


机器之心专栏
机器之心编辑部PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。论文链接:https://arxiv.org/abs/2402.08327
DEMO 链接:https://u60544-b8d4-53eaa55d.westx.seetacloud.com:8443/
项目主页链接:https://preflmr.github.io/
论文标题:PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal
Retrievers
背景
尽管多模态大模型(例如 GPT4-Vision、Gemini 等)展现出了强大的通用图文理解能力,它们在回答需要专业知识的问题时表现依然不尽人意。即使 GPT4-Vision 也无法回答知识密集型问题(图一上),这成为了很多企业级落地应用的瓶颈


原文链接:剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器

联系作者

文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...