腾讯发表多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：腾讯发表多模态大模型最新综述，从26个主流大模型看多模态效果提升关键方法
关键字：模型,腾讯,编码器,数据,图像
文章来源：夕小瑶科技说
内容字数：9378字

内容摘要：

夕小瑶科技说原创作者 | 小戏、Python在大规模语言模型（LLMs）通往通用人工智能（AGI）的道路中，从传统的单一的“语言模态”扩展到“图像”、“语音”等等的“多模态”必然是大模型进化的必经之路。
在过去的 2023 年，多模态大规模语言模型（MM LLMs）伴随着大模型本身的飞速进化也不断的产生新的突破，而年底谷歌 Gemini 的宣传片更是一举提升了人们对多模态大模型上限的想象。
而最近腾讯 AI Lab 发表了一篇关于多模态大模型的最新综述《MM-LLMs: Recent Advances in MultiModal Large Language Models》，整理归纳了现在多模态大模型的整体架构设计方向，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，可谓一文跟上 MM LLMs 的最新前沿，一起来看看吧！
论文题目：
MM-LLMs: Recent Advances in MultiModal Large Language Models
论文链接：
https://arxiv.org/pdf/2401.13601.pdf
多模