AIGC动态欢迎阅读
原标题:LLM爆发的一周!Apple开源OpenELM(270M、450M、1.1B 和 3B)
关键字:模型,分词,数据,开发者,参数
文章来源:算法邦
内容字数:2768字
内容摘要:
Apple今天发布并开源OpenELM系列模型(270M、450M、1.1B 和 3B)!还包括了在公开可用数据集上训练和评估语言模型的完整框架,包括训练日志、多个checkpoint 和预训练配置等。OpenELM是一个开源高效语言模型系列,使用分层缩放策略来有效地分配变压器模型每一层内的参数,从而提高准确性,它基于CoreNet库预训练而成,这又是SLM(Small Language Model)端侧模型的一个新进展!
OpenELM与公共大型语言模型(LLM)的比较:在公开可用数据集上预训练的OpenELM在性能上超越了与之规模相当的现有LLM。特别值得注意的是,与最近的开放LLM——OLMo相比,OpenELM在准确率上高出了2.36%,同时所需的预训练令牌数量减少了一倍。平均准确率是通过对表3b中列出的多个任务计算得出的,这些任务也是OpenLLM排行榜的一部分。用较少数据预训练的模型以灰色突出显示。OpenELM模型的技术细节和特点:
模型架构:OpenELM采用的是仅解码器的transformer模型架构。它遵循最新的大型语言模型(LLM)的设计,包括不使用可学习的偏置参
原文链接:LLM爆发的一周!Apple开源OpenELM(270M、450M、1.1B 和 3B)
联系作者
文章来源:算法邦
作者微信:allplusai
作者简介:智猩猩矩阵账号之一,连接AI新青年,讲解研究成果,分享系统思考。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...