从BLIP-2到Qwen2-VL，多模态大模型的技术点总结

AIGC动态1年前 (2024)发布智猩猩GenAI

AIGC动态欢迎阅读

原标题：从BLIP-2到Qwen2-VL，多模态大模型的技术点总结
关键字：模型,视觉,数据,指令,侵权
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

开讲预约导读原文来自知乎，作者为jewellery，标题为《多模态大模型技术点总结》。作者对BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Qwen-VL、Qwen2-VL，这8款模型的模型结构、训练过程、预训练阶段及改进点等技术点进行了详细总结。原文地址：https://zhuanlan.zhihu.com/p/717586003
本文只做学术/技术分享，如有侵权，联系删文。总结01BLIP2论文地址：https://arxiv.org/pdf/2301.12597
发布时间：2023.06.15
模型结构：
Vision Encoder：ViT-L/14
VL Adapter：Q-Former
LLM：OPT (decoder-based)，FlanT5（encoder-decoder-based）Overview of BLIP-2s framework
论文主要提出Q-Former（Lightweight Querying Transformer）用于连接模态之间的gap。BLIP-2整体架构包括三个模块：视觉编

原文链接：从BLIP-2到Qwen2-VL，多模态大模型的技术点总结