GPT-4级模型Grok开源可商用!卷底层大模型的公司危了

GPT-4级模型Grok开源可商用!卷底层大模型的公司危了

AIGC动态欢迎阅读

原标题:GPT-4模型Grok开源可商用!卷底层大模型的公司危了
关键字:模型,权重,参数,上下文,精度
文章来源:夕小瑶科技说
内容字数:1565字

内容摘要:


夕小瑶科技说 原创作者 | 醒醒上周,马斯克宣布 xAI 将开源 Grok。
刚刚,马斯克终于兑现诺言,xAI 宣布开源了 Grok-1 的模型权重和网络架构。
Grok-1 是一个拥有 3140亿 参数的专家混合模型,由xAI从头开始训练,模型实际只有 25% 的参数被激活,也就是实际激活的参数数量只有 86B。
这个架构和参数量,与网传的GPT-4模型高度相似,完全可以说是有意为之的GPT-4复刻版了。
xAI 官方博客中 提到Grok-1模型由8个专家组成,64层Transformer,每层包括多头注意力块和密集块。模型的上下文长度为 8192个token,采用bf16计算精度,权重使用 8bit 量化。
Grok-1 模型是在大量文本数据上训练,训练完成和模型权重保存截止到 2023年10月,未针对任何特定任务进行微调。
此外,还包含了模型的技术细节:
• 使用了旋转位置嵌入(Rotary Embeddings),提高了模型的位置编码能力。
• 131072个词量,embedding-dim为6144,64层Transformer。
• 上下文长度达到8192个 token,采


原文链接:GPT-4级模型Grok开源可商用!卷底层大模型的公司危了

联系作者

文章来源:夕小瑶科技说
作者微信:xixiaoyaoQAQ
作者简介:更快的AI前沿,更深的行业洞见。聚集25万AI一线开发者、互联网中高管和机构投资人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备行业嗅觉与报道深度。

阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...