今日arXiv最热大模型论文：13位作者，200篇文献，腾讯最新综述高效多模态大模型：性能要强，规模要小

AIGC动态2年前 (2024)发布夕小瑶科技说

AIGC动态欢迎阅读

原标题：今日arXiv最热大模型论文：13位作者，200篇文献，腾讯最新综述高效多模态大模型：性能要强，规模要小
关键字：模型,高效,视觉,腾讯,图像
文章来源：夕小瑶科技说
内容字数：0字

内容摘要：

夕小瑶科技说原创作者 | 谢年年在过去一年里，多模态大语言模型（MLLMs）在视觉问答、视觉理解和推理等任务中展现了卓越性能。OpenAI的GPT-4V和Google的Gemini的惊人表现拉高了人们对MLLMs的期待。
他们的成功很大程度归功于scaling law，即投入的数据、计算能力或模型越大，模型的性能就越强。
然而，就像一台重型机器需要巨大的能源支持和高昂的“维护费”，庞大的模型规模和高昂的训练与推理成本限制了MLLMs在学术界和工业界的广泛应用，更别说在边缘设备上运行。
据计算，训练MiniGPT-v2在使用NVIDIA A100 GPU的情况下也需要超过800个小时。除此之外，推理过程的资源消耗也是个大头。以一个典型场景为例，当模型输入为336×336像素的图像和40个token的文本提示时，使用LLaVA-1.5和Vicuna-13B LLM核心进行推理，这个过程需要高达18.2万亿次的浮点运算（FLOPS）和41.6GB的内存。
这促使学者不得不开始研究如何降低MLLM的资源消耗，使其能在更广泛的场景下得到应用，同时还要尽量保持其高性能，也就是高效轻量级的MLLM

原文链接：今日arXiv最热大模型论文：13位作者，200篇文献，腾讯最新综述高效多模态大模型：性能要强，规模要小

联系作者

文章来源：夕小瑶科技说
作者微信：xixiaoyaoQAQ
作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189

阅读原文