LLM爆发的一周！Apple开源OpenELM（270M、450M、1.1B 和 3B）

AIGC动态2年前 (2024)发布算法邦

AIGC动态欢迎阅读

原标题：LLM爆发的一周！Apple开源OpenELM（270M、450M、1.1B 和 3B）
关键字：模型,分词,数据,开发者,参数
文章来源：算法邦
内容字数：2768字

内容摘要：

Apple今天发布并开源OpenELM系列模型（270M、450M、1.1B 和 3B）！还包括了在公开可用数据集上训练和评估语言模型的完整框架，包括训练日志、多个checkpoint 和预训练配置等。OpenELM是一个开源高效语言模型系列，使用分层缩放策略来有效地分配变压器模型每一层内的参数，从而提高准确性，它基于CoreNet库预训练而成，这又是SLM(Small Language Model)端侧模型的一个新进展！
OpenELM与公共大型语言模型（LLM）的比较：在公开可用数据集上预训练的OpenELM在性能上超越了与之规模相当的现有LLM。特别值得注意的是，与最近的开放LLM——OLMo相比，OpenELM在准确率上高出了2.36%，同时所需的预训练令牌数量减少了一倍。平均准确率是通过对表3b中列出的多个任务计算得出的，这些任务也是OpenLLM排行榜的一部分。用较少数据预训练的模型以灰色突出显示。OpenELM模型的技术细节和特点：
模型架构：OpenELM采用的是仅解码器的transformer模型架构。它遵循最新的大型语言模型（LLM）的设计，包括不使用可学习的偏置参

原文链接：LLM爆发的一周！Apple开源OpenELM（270M、450M、1.1B 和 3B）