如何提升多模态效果？从这26个主流大模型来看看

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：如何提升多模态效果？从这26个主流大模型来看看
关键字：模型,腾讯,编码器,数据,图像
文章来源：算法邦
内容字数：12418字

内容摘要：

智猩猩和智东西发起主办的2024中国生成式AI大会将于4月18-19日在北京举办。主会场将进行开幕式、大模型专场、AI基础软件专场和AIGC应用专场；分会场将进行具身智能技术研讨会、AI智能体技术研讨会和中国智算中心创新论坛。扫名，也可咨询。在大规模语言模型（LLMs）通往通用人工智能（AGI）的道路中，从传统的单一的“语言模态”扩展到“图像”、“语音”等等的“多模态”必然是大模型进化的必经之路。
在过去的 2023 年，多模态大规模语言模型（MM LLMs）伴随着大模型本身的飞速进化也不断的产生新的突破，而年底谷歌 Gemini 的宣传片更是一举提升了人们对多模态大模型上限的想象。而最近腾讯 AI Lab 发表了一篇关于多模态大模型的最新综述《MM-LLMs: Recent Advances in MultiModal Large Language Models》，整理归纳了现在多模态大模型的整体架构设计方向，并且提供了现有主流的 26 个多模态大模型的简介，总结了提升多模态大模型性能的关键方法，可谓一文跟上 MM LLMs 的最新前沿，一起来看看吧！
论文题目：
MM-LLMs

原文链接：如何提升多模态效果？从这26个主流大模型来看看