苹果多模态模型大升级！文本密集、多图理解，全能小钢炮

AIGC动态2年前 (2024)发布新智元

AIGC动态欢迎阅读

原标题：苹果多模态模型大升级！文本密集、多图理解，全能小钢炮
关键字：数据,模型,图像,作者,文本
文章来源：新智元
内容字数：0字

内容摘要：

新智元报道编辑：alan
【新智元导读】近日，一向画风精致的「苹果牌AI」，也推出了升级版的多模态大模型，从1B到30B参数，涵盖密集和专家混合模型，密集文本、多图理解，多项能力大提升。多模态大语言模型（MLLM）如今已是大势所趋。
过去的一年中，闭源阵营的GPT-4o、GPT-4V、Gemini-1.5和Claude-3.5等模型引领了时代。
而开源MLLM也同样在蓬勃发展，LLaVA系列，InternVL2，Cambrian-1和Qwen2-VL的强劲表现，让作为老大哥的GPT-4o时常躺枪。
开源与闭源之间差距缩小，兼具单图、多图、视频理解能力的MLLM也成为大家研究的重点。
说到潮流，怎么能没有苹果的一席之地？
近日，一向画风精致的「苹果牌AI」，也推出了升级版的多模态大模型——MM1.5。
论文地址：https://arxiv.org/pdf/2409.20566
MM1.5以前代MM1模型为基础，采用数据为中心的方法进行训练，显著增强了文本密集型图像理解、视觉指代和定位、以及多图像推理的能力。
MM1.5系列的参数量从1B到30B，涵盖密集和专家混合（MoE）模型，即使较

原文链接：苹果多模态模型大升级！文本密集、多图理解，全能小钢炮