Arctic

Arctic是一款由云计算巨头Snowflake的AI研究团队开发的高效、开源企业级大型语言模型。该模型拥有480亿参数，采用了128个细粒度专家构成的混合专家模型（MoE），在成本效益、训练效率和推理效率方面表现卓越，特别适合执行SQL生成、编程任务和指令遵循等企业应用。

Arctic是什么

Arctic是Snowflake的AI研究团队推出的一款开源企业级大型语言模型，具有高效的性能和灵活的应用能力。该模型拥有480亿参数，采用混合专家模型（MoE）架构，结合了128个细粒度专家的优势，特别适合企业在执行复杂任务时的需求。Arctic以Apache 2.0许可发布，提供模型权重和代码的开放访问，并已开源相关的数据集和研究成果。

Arctic

主要功能

参数规模：Arctic拥有480亿参数，但在推理阶段仅激活170亿参数，以提升运行效率。
技术架构：采用混合架构，结合密集变换器（Dense Transformer）和128个专家的MoE模型，每个专家含有3.66亿参数。
上下文窗口：模型在训练时使用4K的注意力上下文窗口，并计划扩展至32K，以支持更长的序列处理。
训练成本：Arctic的训练费用大约在200万美元以下，能够在3000个GPU周内达到顶级大模型的能力。
模型许可：Arctic在开放的Apache 2.0许可下发布，允许用户使用和修改。
主要用途：专为企业设计，擅长执行SQL生成、编程和指令遵循等任务，适合创建定制企业模型。

Arctic

Arctic的模型架构

架构组成：Arctic采用Dense-MoE混合变换器架构，将密集变换器与混合专家模型的优点相结合。
密集变换器规模：模型中包含一个10亿参数的密集变换器。
MoE架构规模：在MoE部分，Arctic设计了128个细粒度专家，每个专家拥有3.66亿参数，总参数量约为470亿。
总参数量：结合密集变换器和MoE部分，Arctic的总参数量达480亿。
活跃参数选择：在推理过程中，Arctic使用top-2门控机制选择两个最合适的专家，从而在推理时激活约170亿参数。
通信与计算重叠：Arctic的架构设计允许在训练过程中将专家间的通信与计算任务重叠，从而提高训练效率。
推理效率：在小批量交互式推理中，Arctic的内存读取次数显著低于其他模型，这有助于提升推理性能。
系统优化：Arctic与NVIDIA合作，利用TensorRT-LLM和vLLM团队的技术，实现初步推理，并通过FP8量化，使模型可在单个GPU节点上运行。
注意力上下文窗口：Arctic训练时使用的注意力上下文窗口为4K，团队正在开发基于attention-sinks的滑动窗口实现，未来计划扩展到32K注意力窗口。

Arctic的性能表现

Snowflake对Arctic进行了与DBRX、Llama、Mixtral等模型的比较，结果显示Arctic在企业智能指标上表现更为优异。尽管在一些通用知识基准（如MMLU）上的表现可能稍逊于最新模型，但其依然保持了竞争力。

Arctic

企业指标：相较其他开源模型，Arctic在以下任务中展现了卓越的性能：

编码（Coding）：通过HumanEval+和MBPP+基准测试的编码能力。
SQL生成（SQL Generation）：使用Spider基准测试评估SQL查询生成能力。
指令遵循（Instruction Following）：通过IFEval基准测试评估复杂指令的遵循能力。

如何使用Arctic

Snowflake Arctic现已在Hugging Face、Replicate等平台上线，未来还将在Snowflake Cortex、Amazon Web Services (AWS)、Microsoft Azure、NVIDIA API Catalog、Lamini、Perplexity和Together等平台提供服务。