Arctic是一款由云计算巨头Snowflake的AI研究团队开发的高效、开源企业级大型语言模型。该模型拥有480亿参数,采用了128个细粒度专家构成的混合专家模型(MoE),在成本效益、训练效率和推理效率方面表现卓越,特别适合执行SQL生成、编程任务和指令遵循等企业应用。
Arctic是什么
Arctic是Snowflake的AI研究团队推出的一款开源企业级大型语言模型,具有高效的性能和灵活的应用能力。该模型拥有480亿参数,采用混合专家模型(MoE)架构,结合了128个细粒度专家的优势,特别适合企业在执行复杂任务时的需求。Arctic以Apache 2.0许可发布,提供模型权重和代码的开放访问,并已开源相关的数据集和研究成果。
主要功能
- 参数规模:Arctic拥有480亿参数,但在推理阶段仅激活170亿参数,以提升运行效率。
- 技术架构:采用混合架构,结合密集变换器(Dense Transformer)和128个专家的MoE模型,每个专家含有3.66亿参数。
- 上下文窗口:模型在训练时使用4K的注意力上下文窗口,并计划扩展至32K,以支持更长的序列处理。
- 训练成本:Arctic的训练费用大约在200万美元以下,能够在3000个GPU周内达到顶级大模型的能力。
- 模型许可:Arctic在开放的Apache 2.0许可下发布,允许用户自由使用和修改。
- 主要用途:专为企业设计,擅长执行SQL生成、编程和指令遵循等任务,适合创建定制企业模型。
Arctic的模型架构
- 架构组成:Arctic采用Dense-MoE混合变换器架构,将密集变换器与混合专家模型的优点相结合。
- 密集变换器规模:模型中包含一个10亿参数的密集变换器。
- MoE架构规模:在MoE部分,Arctic设计了128个细粒度专家,每个专家拥有3.66亿参数,总参数量约为470亿。
- 总参数量:结合密集变换器和MoE部分,Arctic的总参数量达480亿。
- 活跃参数选择:在推理过程中,Arctic使用top-2门控机制选择两个最合适的专家,从而在推理时激活约170亿参数。
- 通信与计算重叠:Arctic的架构设计允许在训练过程中将专家间的通信与计算任务重叠,从而提高训练效率。
- 推理效率:在小批量交互式推理中,Arctic的内存读取次数显著低于其他模型,这有助于提升推理性能。
- 系统优化:Arctic与NVIDIA合作,利用TensorRT-LLM和vLLM团队的技术,实现初步推理,并通过FP8量化,使模型可在单个GPU节点上运行。
- 注意力上下文窗口:Arctic训练时使用的注意力上下文窗口为4K,团队正在开发基于attention-sinks的滑动窗口实现,未来计划扩展到32K注意力窗口。
Arctic的性能表现
Snowflake对Arctic进行了与DBRX、Llama、Mixtral等模型的比较,结果显示Arctic在企业智能指标上表现更为优异。尽管在一些通用知识基准(如MMLU)上的表现可能稍逊于最新模型,但其依然保持了竞争力。
企业指标:相较其他开源模型,Arctic在以下任务中展现了卓越的性能:
- 编码(Coding):通过HumanEval+和MBPP+基准测试的编码能力。
- SQL生成(SQL Generation):使用Spider基准测试评估SQL查询生成能力。
- 指令遵循(Instruction Following):通过IFEval基准测试评估复杂指令的遵循能力。
如何使用Arctic
Snowflake Arctic现已在Hugging Face、Replicate等平台上线,未来还将在Snowflake Cortex、Amazon Web Services (AWS)、Microsoft Azure、NVIDIA API Catalog、Lamini、Perplexity和Together等平台提供服务。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...