Grok-1 – 马斯克旗下xAI开源的大模型,参数量3140亿

Grok-1 是由马斯克创办的人工智能初创公司 xAI 推出的最新大型语言模型,作为一个混合专家(MoE)模型,它拥有惊人的 3140 亿参数,这使其成为当前参数数量最多的开源大语言模型。Grok-1 的开发过程遵循开源原则,所有权重和网络结构均已公开,基于 Apache 2.0 许可,用户可以自由使用、修改和分发,无论是个人还是商业用途均可。

Grok-1是什么

Grok-1 是由马斯克旗下的人工智能初创公司 xAI 开发的一款大型语言模型,它作为一个混合专家(MoE)模型,拥有 3140 亿参数,成为现今参数量最大的开源大语言模型。基于开源的理念,Grok-1 的训练和开发过程均公开,允许用户在 Apache 2.0 许可下自由使用、修改和分发。

Grok-1 - 马斯克旗下xAI开源的大模型,参数量3140亿

Grok-1的官网入口

  • 官方文章介绍https://x.ai/blog/grok-os
  • GitHub地址https://github.com/xai-org/grok-1
  • Hugging Face地址https://huggingface.co/xai-org/grok-1
  • 模型权重下载magnet:"https://x.ai/model-card/" target="_blank" rel="noopener nofollow" rel="nofollow noopener">https://x.ai/model-card/),Grok-1的信息如下:

    项目详细信息
    模型细节Grok-1是一个基于Transformer的自回归模型,预训练用于下一个token预测。该模型通过来自人类和早期Grok-0模型的广泛反馈进行了微调。初始版本的Grok-1具有8192个token的上下文长度,并在2023年11月发布。
    预期用途Grok-1旨在用作Grok聊天机器人背后的引擎,可用于问答、信息检索、创意写作和编程辅助等多种自然语言处理任务。
    局限性尽管Grok-1在信息处理方面表现出色,但仍需人类对其输出进行审查以确保准确性。该语言模型无法独立搜索互联网。在Grok中部署时,结合搜索工具和数据库能够提升模型的能力和准确性。即便如此,模型有时仍可能产生不准确的内容。
    训练数据Grok-1发布版本所使用的训练数据来自截至2023年第三季度的互联网,及xAI的AI训练人员提供的数据。
    评估Grok-1在多项推理基准任务和精选的国际数学考试问题上进行了评估。xAI已与早期用户进行接触,评估了包括对抗性测试在内的Grok-1版本。xAI正在通过Grok的早期访问扩大早期采用者的范围,以便进行封闭的beta测试。

    Grok-1的技术细节

    • 基础模型和训练:Grok-1是基于大量文本数据进行训练的,并未针对任何特定任务进行微调,意味着它是一个通用语言模型,适用于多种自然语言处理任务。它的训练使用了JAX库和Rust语言构建的定制训练堆栈。
    • 参数数量:Grok-1拥有3140亿个参数,是目前参数量最大的开源大语言模型。每个token的激活权重为25%,展示了模型的规模与复杂性。
    • 混合专家模型(MoE):Grok-1采用混合专家系统设计,将多个专家网络结合,提高了模型的效率与性能。在Grok-1中,每个token会从8个专家中选择2个进行处理。
    • 激活参数:Grok-1的激活参数数量达到860亿,远超Llama-2的70B参数,显示出其在语言任务处理上的潜力。
    • 嵌入和位置嵌入:Grok-1使用旋转嵌入而非固定位置嵌入,这种方法增强了模型处理长文本的能力。其Tokenizer词汇量为131,072,类似于GPT-4,嵌入大小为6,144。
    • Transformer层:该模型包含64个Transformer层,每层由多头注意力块和密集块组成。多头注意力块有48个用于查询的头,8个用于键/值(KV),KV大小为128。密集块的加宽因子为8,隐藏层大小为32,768。
    • 量化:Grok-1还提供部分权重的8bit量化,减少了模型的存储和计算需求,使其更适合在资源有限的环境中运行。
    • 运行要求:由于Grok-1是一个超大规模模型(314B参数),需要具备足够GPU内存的机器才能运行。估计需要一台拥有628GB GPU内存的机器(每个参数2字节)。
阅读原文
© 版权声明

相关文章

暂无评论

暂无评论...