Apertus – 瑞士开源的首个大规模语言模型
Apertus:瑞士首个大规模开放多语言大型语言模型,支持70B和8B参数版本,注重数据隐私与控制,并大幅提升了对包括瑞士德语、罗曼什语在内的小语种支持。
Apertus:赋能开放、多语言AI新纪元
Apertus,作为瑞士科技界的一项重要突破,是由瑞士联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Zurich)以及瑞士国家超级计算中心(CSCS)联合打造的。这款模型不仅是瑞士首个大规模开放的大型语言模型(LLM),更在多语言能力上实现了质的飞跃,为全球用户带来了前所未有的AI体验。
核心亮点:开放、多语言与数据
Apertus 的核心在于其全面开放的特性,用户可以获取模型权重、训练数据及详细的训练过程,并可在本地服务器部署,从而完全掌控自身的数据隐私。在多语言支持方面,Apertus 表现尤为突出,其训练数据中高达40%为非英语内容,涵盖了瑞士德语、罗曼什语等此前在LLM领域被忽视的语言,极大地拓宽了AI的应用边界。
该模型拥有70B和8B两个参数版本,采用先进的仅解码器Transformer架构,并引入了创新的xIELU激活函数和AdEMAMix优化器,显著提升了模型的效率和长上下文处理能力。
技术实力:驱动AI的强大引擎
在模型架构上,Apertus 采用了高效的密集解码器Transformer设计,70B版本拥有80层与64个注意力头,8B版本则为32层与32个注意力头。通过xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制,Apertus 在处理长文本序列和提升效率方面表现卓越。
预训练目标方面,Apertus 运用Goldfish目标函数,通过对部分标记进行随机掩盖,有效防止模型死记硬背,同时保留了其在下游任务中的优异表现。数据的选择严格遵守合规性原则,仅使用公开可用的数据源,并充分尊重内容所有者的退出意愿,过滤掉受版权保护、非许可、有害或包含个人身份信息的内容。
预训练数据的规模超过15万亿标记,覆盖1800多种语言。数据来源广泛,包括高质量的网络爬取、代码和数学数据等。通过多重过滤机制,确保数据的合规性和多样性,特别是大量非英语内容的引入,为模型的跨语言能力打下了坚实基础。
训练过程采用了AdEMAMix优化器和WSD学习率调度,确保了训练的稳定性和高效性。通过逐步扩展上下文长度,Apertus 能够处理长达65,536个标记的文本序列。
后训练阶段,Apertus 经历了指令微调和对齐训练,并借助QRPO算法优化模型行为,使其生成的内容更加安全、有用且符合人类价值观。
应用前景:解锁无限可能
Apertus 的多语言能力和强大的文本生成功能,使其在多语言对话系统、代码生成与辅助、教育与学习辅助、内容创作以及翻译服务等众多领域展现出广阔的应用前景。
探索与获取
了解更多关于Apertus的信息,可以访问其项目官网:https://www.swiss-ai.org/apertus。在HuggingFace模型库中,用户可以找到Apertus的模型资源:https://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059。深入的技术细节则可以在技术论文中找到:https://github.com/swiss-ai/apertus-tech-report。