AIGC动态欢迎阅读
原标题:苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源
关键字:模型,参数,维度,指令,研究人员
文章来源:夕小瑶科技说
内容字数:6074字
内容摘要:
夕小瑶科技说 原创作者 | 任同学不以开放性著称的苹果居然同时开源了大模型的权重、训练和评估框架,涵盖训练日志、多个保存点和预训练设置。同时升级计算机视觉工具包 CVNets 为 CoreNet!支持 OpenELM!
▲图1.由Stable Diffusion3生成。OpenELM是Apple苹果公司最新推出的语言模型系列,这次一共开源了8个模型,包括OpenELM-270M、OpenELM450M、OpenELM-1_1B和OpenELM-3B的预训练版和指令微调版。
▲图2.OpenELM 采用了decoder-only的架构,并遵循最新的大语言模型(LLM)的设计,包括:
在任何全连接层中不使用可学习的偏置参数,
使用RMSNorm进行预归一化,同时使用旋转位置嵌入(ROPE)来编码位置信息,
使用分组查询注意力(GQA)代替多头注意力(MHA),
将前馈网络(FFN)替换为SwiGLU FFN,
使用Flash Attention来计算缩放点积注意力,
使用与LLama相同的分词器。
▲图3.OpenELM与开源LLM。OpenELM比最近的开放LLM OLMo的性能高出2.
原文链接:苹果一次性开源了8个大模型! 包含模型权重、训练日志和设置,OpenELM全面开源
联系作者
文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189