BitCPM-CANN

BitCPM-CANN – 面壁智能联合清华开源的端侧大模型

面壁智能携手清华大学及OpenBMB开源社区，隆重推出中国首款完全基于华为昇腾国产算力平台端到端训练完成的1.58-bit三值大模型——BitCPM-CANN。

BitCPM-CANN：国产算力新里程碑

BitCPM-CANN的诞生，标志着中国在人工智能核心技术领域迈出了坚实的一大步。这款模型不仅是中国首个完全在华为昇腾国产算力平台上完成训练的大模型，更是一项在低比特模型训练上的重大突破。它采用创新的量化感知训练（QAT）路线，并提供0.5B到8B共四个不同规模的版本，极大地优化了模型在推理阶段的显存占用，实现了约6倍的显存释放红利。更令人瞩目的是，在显著降低模型体积的同时，其能力保留率高达90.1%至97.2%，充分证明了国产NPU在构建完整低比特训练生态方面的强大实力。

BitCPM-CANN的核心亮点

高效三值大模型推理： BitCPM-CANN提供0.5B、1B、3B、8B四种参数规格，能够灵活适配各类应用场景。尤其值得一提的是，8B模型已能轻松部署于当前主流旗舰智能手机，为移动端AI体验注入新活力。
昇腾全链路国产训练： 从模型的训练到最终的推理部署，整个流程均在华为昇腾平台上原生实现，彻底摆脱了对国外GPU的依赖，构建了完整的国产AI训练闭环。
极致显存优化： 相较于传统的BF16精度模型，BitCPM-CANN在推理阶段能节省约6倍的显存空间，这意味着在同等内存条件下，可以承载能力更强的模型，极大地扩展了硬件部署的可能性。
严谨的性能验证： BitCPM-CANN与同等规模的全精度MiniCPM4模型进行了1:1的性能对照评测，涵盖了常识推理、阅读理解、学科知识、数学逻辑等11项关键任务，结果显示其性能损失极小。
开放的开源生态： 面壁智能不仅开放了BitCPM-CANN全系列模型的权重，还开源了基于MindSpeed × Megatron-LM构建的低比特训练底座，为开发者提供了宝贵的复现和二次创新基础。

BitCPM-CANN的技术基石

量化感知训练（QAT）： 模型在训练之初便主动学习如何以三值（-1、0、+1）权重来表达知识，而非训练完成后再进行被动压缩。这种“原生生长”的模式，从根本上保证了极低比特下的模型性能。
最大化三值权重信息密度： 通过严格的1.58-bit位宽约束，BitCPM-CANN迫使每一比特都发挥出最大的知识承载效率，使得权重的精度更多地取决于其承载的知识量，而非单纯的位宽大小。
MindSpeed × Megatron-LM训练底座： 基于此主干框架，在昇腾平台上构建了一套完整的低比特训练基础设施，包括环境适配、32K长序列支持、高效的并行策略以及优化的融合算子体系。
端到端国产算力原生适配： 从底层的量化算子、QAT算法，到完整的并行策略和训练框架，所有组件都为华为昇腾平台进行了原生开发与深度优化，实现了训练与推理的无缝集成。
系统性与可扩展性： 通过覆盖0.5B至8B的全尺寸系列工程验证，BitCPM-CANN证明了其低比特训练路线在不同模型规模下都具备良好的系统性、可扩展性以及工程上的可复现性。

如何体验BitCPM-CANN

获取模型权重： 用户可通过HuggingFace平台轻松下载BitCPM-CANN 0.5B、1B、3B、8B全系列模型权重。
部署训练底座： 基于面壁智能提供的MindSpeed × Megatron-LM低比特训练底座，在华为昇腾平台上进行环境适配、依赖安装和框架部署。
端侧高效推理： 利用模型高达6倍的显存优势，直接在主流旗舰手机或PC端设备上运行8B及以下模型进行推理，享受流畅的AI体验。
二次训练与创新： 开发者可利用QAT训练基础设施和开源代码，在昇腾平台上进行模型微调、领域适配或更大规模的低比特训练探索。

BitCPM-CANN的突出优势

国产算力闭环的重大突破： BitCPM-CANN首次在昇腾平台上实现了端到端1.58-bit训练，并完成至8B级别的全精度对照评测，彻底打破了国产芯片仅能进行推理的局限。
卓越的能力保留率： BitCPM-CANN在各尺寸模型上均展现了行业领先的能力保留率，其中3B模型高达97.2%，8B模型为95.7%，0.5B也达到了90.1%，显示出极强的系统性和可复现性。
训练效率远超同类： 此前发布的GPU版BitCPM 1B模型，仅用微软BitNet 2B模型1/20的训练算力便实现了性能超越，其训练效率优势已得到充分验证。
端侧AI能力的天花板大幅提升： 结合6倍显存红利与MoE架构，BitCPM-CANN有望使50B乃至100B参数的超大模型得以部署在终端设备上，将端侧AI能力推向全新高度。

BitCPM-CANN项目地址

HuggingFace模型库：https://huggingface.co/collections/openbmb/bitcpm-cann

BitCPM-CANN与竞品对比

对比维度	BitCPM-CANN	微软 BitNet
开发方	面壁智能 / 清华大学 / OpenBMB	微软研究院
技术路线	量化感知训练（QAT）	三值量化训练
训练平台	华为昇腾（国产NPU）	英伟达 GPU
权重精度	1.58-bit（-1， 0， +1）	1.58-bit（-1， 0， +1）
能力保留率	90.1%–97.2%（3B最高97.2%）	未公开同类全精度对照
训练效率	1B仅用BitNet 2B 1/20算力	基准方案
端到端训练	昇腾原生完成	GPU原生完成
开源程度	全系列权重 + 训练底座开源	部分开源
端侧价值	补国产NPU低比特模型供给侧空白	推动三值量化研究

BitCPM-CANN的应用前景

智能手机端侧AI革新： 在有限的手机内存环境下，BitCPM-CANN能够运行更大参数规模的模型，未来有望实现60B大模型的端侧部署，显著提升终端设备的智能化水平和用户体验。
完善国产芯片生态： 为如高通骁龙8 Gen 4等已支持2-bit推理的端侧芯片提供高质量的模型供给，实现软硬件的协同发展和生态闭环。
企业级低成本端侧部署： 适用于PC、汽车、IoT等设备的低内存成本大模型推理场景，有效缓解全球HBM内存价格上涨带来的供应链压力。
推动低比特训练研究与创新： 为昇腾平台开发者提供可复用、可扩展的QAT公共基础设施，有力支持基于国产算力的二次训练和微调创新。

阅读原文