从BLIP-2到Qwen2-VL,多模态大模型的技术点总结

从BLIP-2到Qwen2-VL,多模态大模型的技术点总结

AIGC动态欢迎阅读

原标题:从BLIP-2到Qwen2-VL,多模态大模型的技术点总结
关键字:模型,视觉,数据,指令,侵权
文章来源:智猩猩GenAI
内容字数:0字

内容摘要:


开讲预约导读原文来自知乎,作者为jewellery,标题为《多模态大模型技术点总结》。作者对BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4、MiniGPT-v2、Qwen-VL、Qwen2-VL,这8款模型的模型结构、训练过程、预训练阶段及改进点等技术点进行了详细总结。原文地址:https://zhuanlan.zhihu.com/p/717586003
本文只做学术/技术分享,如有侵权,联系删文。总结01BLIP2论文地址:https://arxiv.org/pdf/2301.12597
发布时间:2023.06.15
模型结构:
Vision Encoder:ViT-L/14
VL Adapter:Q-Former
LLM:OPT (decoder-based),FlanT5(encoder-decoder-based)Overview of BLIP-2s framework
论文主要提出Q-Former(Lightweight Querying Transformer)用于连接模态之间的gap。BLIP-2整体架构包括三个模块:视觉编


原文链接:从BLIP-2到Qwen2-VL,多模态大模型的技术点总结

联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...