AIGC动态欢迎阅读
原标题:苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
关键字:参数,苹果,研究者,模型,准确率
文章来源:机器之心
内容字数:5794字
内容摘要:
机器之心报道
编辑:陈萍、大盘鸡苹果发布基于开源训练和推理框架的高效语言模型族 OpenELM。要说 ChatGPT 拉开了大模型竞赛的序幕,那么 Meta 开源 Llama 系列模型则掀起了开源领域的热潮。在这当中,苹果似乎掀起的水花不是很大。
不过,苹果最新放出的论文,我们看到其在开源领域做出的贡献。
近日,苹果发布了 OpenELM,共四种变体(参数量分别为 270M、450M、1.1B 和 3B),这是一系列基于公开数据集进行预训练和微调的模型。OpenELM 的核心在于逐层缩放,即 OpenELM 中的每个 Transformer 层都有不同的配置(例如,头数和前馈网络维度),导致模型每层的参数数量不同,从而实现了更有效的跨层参数分配。
值得一提的是,苹果这次发布了完整的框架,包括数据准备、训练、微调和评估程序,以及多个预训练的 checkpoint 和训练日志,以促进开源研究。论文地址:https://arxiv.org/pdf/2404.14619.pdf
项目地址:https://github.com/apple/corenet
论文标题:OpenELM: An Eff
原文链接:苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
联系作者
文章来源:机器之心
作者微信:almosthuman2014
作者简介:专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...