苹果终于入局大模型了：300亿参数、MoE 架构，手机要迎来全面的大变革了？

AIGC动态2年前 (2024)发布 AI前线

AIGC动态欢迎阅读

原标题：苹果终于入局大模型了：300亿参数、MoE 架构，手机要迎来全面的大变革了？
关键字：解读,苹果公司,模型,人工智能,图像
文章来源：AI前线
内容字数：5399字

内容摘要：

作者 | 李忠良
今天，Apple 公司通过一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究论文，正式官宣了其在多模态大模型（Multimodal Large Language Models，简称 MLLMs）领域的研究成果。该研究集中于开发具有 30B 参数规模的高性能 MLLMs，论文由多位作者联合撰写，已在 arXiv 平台发布。
论文链接：https://arxiv.org/abs/2403.09611
论文表明，研究团队通过深入和全面的剖析图像编码器、视觉 – 语言连接器以及各种预训练数据选择，发现了几个关键的设计经验。例如，他们展示了在大规模多模态预训练中使用精心混合的图像 – 文字对、交错的图像 – 文本和纯文本数据是实现多个基准测试中最先进（SOTA）的少量样本结果的关键。
此外，他们还展示了图像编码器、图像分辨率和图像标记数量对性能有重大影响，而视觉 – 语言连接器的设计相对而言影响较小。
通过扩大展示的配方，他们构建了 MM1 系列多模态模型，包括密集模型和专家混合

原文链接：苹果终于入局大模型了：300亿参数、MoE 架构，手机要迎来全面的大变革了？