苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相

AIGC动态2年前 (2024)发布机器之心

AIGC动态欢迎阅读

原标题：苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相
关键字：参数,苹果,研究者,模型,准确率
文章来源：机器之心
内容字数：5794字

内容摘要：

机器之心报道
编辑：陈萍、大盘鸡苹果发布基于开源训练和推理框架的高效语言模型族 OpenELM。要说 ChatGPT 拉开了大模型竞赛的序幕，那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中，苹果似乎掀起的水花不是很大。
不过，苹果最新放出的论文，我们看到其在开源领域做出的贡献。
近日，苹果发布了 OpenELM，共四种变体（参数量分别为 270M、450M、1.1B 和 3B），这是一系列基于公开数据集进行预训练和微调的模型。OpenELM 的核心在于逐层缩放，即 OpenELM 中的每个 Transformer 层都有不同的配置（例如，头数和前馈网络维度），导致模型每层的参数数量不同，从而实现了更有效的跨层参数分配。
值得一提的是，苹果这次发布了完整的框架，包括数据准备、训练、微调和评估程序，以及多个预训练的 checkpoint 和训练日志，以促进开源研究。论文地址：https://arxiv.org/pdf/2404.14619.pdf
项目地址：https://github.com/apple/corenet
论文标题：OpenELM: An Eff

原文链接：苹果卷开源大模型，公开代码、权重、数据集、训练全过程，OpenELM亮相