昇腾 910B 部署满血 DeepSeek-R1不完全避坑指南

昇腾 910B 部署满血 DeepSeek-R1.

原标题：昇腾 910B 部署满血 DeepSeek-R1不完全避坑指南
文章来源：智猩猩GenAI
内容字数：3623字

本文总结了作者团队在昇腾910B平台部署DeepSeek R1大模型的经验，包括总体方案、部署过程、踩坑指南以及未解问题等方面，为其他开发者提供参考。

作者团队在春节后决定在910B 16卡训练机器上部署DeepSeek R1模型。由于R1模型权重为FP8格式，而昇腾卡不支持FP8，需要将其转换为BF16格式。这导致模型权重接近1.4T，需要两台机器共32张昇腾910B卡才能满足需求。部署基于MindIE框架，并利用华为提供的教程和软件。

团队在一天内成功启动服务并收到R1模型的回复，响应速度符合预期。虽然过程相对顺利，但仍遇到一些挑战，将在后续章节详细说明。

本节总结了部署过程中遇到的问题及解决方案，主要围绕华为提供的部署文档展开：

权重转换问题： R1模型的权重转换脚本位于V3项目中，且需要支持FP8的NVIDIA设备才能运行。如果只有低端支持FP8的硬件，则必须使用该脚本转换模型；NPU路线可能更顺利。无论GPU还是NPU方案，其他文件都需要手工复制。
镜像问题： 文档提供的镜像可能是arm平台的，x86用户需要切换到手工安装软件/构建镜像的路线。
软件安装问题： 昇腾相关的特定POC软件需要联系华为获取，并按照步骤完整安装，避免遗漏。
权限问题： 容器环境下，owner和group需要设置为root:root。
rank_table_file格式问题： 建议使用程序生成，避免手工编辑错误，简单类型字段应为str类型。
卡编号和IP信息： 需要联系SRE获取卡IP等硬件信息。
server_id问题： 主机IP和容器IP都可以使用，该字段可能不重要。
config.json配置问题： 需开启多机推理，并正确设置ipAddress和managementIpAddress。
mindie-service服务调试问题： 服务拉起失败时，通常不会显示错误信息。需要检查日志目录($HOME/mindie)查找原因，例如缺少pip包。

1.4T的模型复制和加载耗时较长，模型复制需要十几分钟，模型加载需要一个小时以上。这部分有很大的优化空间，需要依赖华为提供解决方案。

文章来源：智猩猩GenAI
作者微信：
作者简介：智猩猩旗下账号，专注于生成式人工智能，主要分享技术文章、论文成果与产品信息。

文章版权归作者所有，未经允许请勿转载。

暂无评论...