多模态大模型: 盘点&Highlights part1——从BLIP到LLaVA

AIGC动态2年前 (2024)发布智猩猩GenAI

AIGC动态欢迎阅读

原标题：多模态大模型: 盘点&Highlights part1——从BLIP到LLaVA
关键字：模型,数据,报告,图像,任务
文章来源：智猩猩GenAI
内容字数：0字

内容摘要：

讲座预告11月1日上午10点，南开大学在读博士李森茂，将以《基于扩散模型编码器模块的推理加速》为主题进行直播讲解，欢迎扫名~导读Hi大家好，我叫延捷，是一名计算机视觉算法工程师，也是叉烧的老朋友了。我们计划发布一系列关于多模态大模型的文章，帮助大家快速、精准地了解多模态大模型的前世今生，并且深入各个多模态大模型领域优秀的工作，希望能给大家一个脉络性的盘点，一起学习，共同进步。01Instruction多模态大模型当前的发展如火如荼，随着LLM技术的不断发展、完善，把图像、视频、语音、遥感等多模态信息和文本结合在一起成了当前的一大热点。这里我将发表一系列关于多模态大模型的技术文章，我并不会过多列举一些不必要的论文细节和指标，而是会着重讲述：
“心路历程”：一个系列工作逐步发展的路径，作者是如何根据当前工作的缺点一步步优化的，并且会总结出每篇工作的highlight，在精而不在多；
“数据细节”：各个工作中对数据处理的细节，包括但不限于数据的收集，采样时的分布，如何清洗/重建noisy数据，如何进行数据预处理，视频抽样的方案等，这些对算法工程师来说是同样重要的一环；
“前人肩膀”：各个

原文链接：多模态大模型: 盘点&Highlights part1——从BLIP到LLaVA