昇腾 910B 部署满血 DeepSeek-R1不完全避坑指南

昇腾 910B 部署满血 DeepSeek-R1.

昇腾 910B 部署满血 DeepSeek-R1不完全避坑指南

原标题:昇腾 910B 部署满血 DeepSeek-R1不完全避坑指南
文章来源:智猩猩GenAI
内容字数:3623字

智猩猩DeepSeek大模型R1部署实战经验分享

本文总结了作者团队在昇腾910B平台部署DeepSeek R1大模型的经验,包括总体方案、部署过程、踩坑指南以及未解问题等方面,为其他开发者提供参考。

1. 部署背景与总体方案

作者团队在春节后决定在910B 16卡训练机器上部署DeepSeek R1模型。由于R1模型权重为FP8格式,而昇腾卡不支持FP8,需要将其转换为BF16格式。这导致模型权重接近1.4T,需要两台机器共32张昇腾910B卡才能满足需求。部署基于MindIE框架,并利用华为提供的教程和软件。

2. 部署过程与效果

团队在一天内成功启动服务并收到R1模型的回复,响应速度符合预期。虽然过程相对顺利,但仍遇到一些挑战,将在后续章节详细说明。

3. 部署踩坑指南

本节总结了部署过程中遇到的问题及解决方案,主要围绕华为提供的部署文档展开:

  1. 权重转换问题: R1模型的权重转换脚本位于V3项目中,且需要支持FP8的NVIDIA设备才能运行。如果只有低端支持FP8的硬件,则必须使用该脚本转换模型;NPU路线可能更顺利。无论GPU还是NPU方案,其他文件都需要手工复制。
  2. 镜像问题: 文档提供的镜像可能是arm平台的,x86用户需要切换到手工安装软件/构建镜像的路线。
  3. 软件安装问题: 昇腾相关的特定POC软件需要联系华为获取,并按照步骤完整安装,避免遗漏。
  4. 权限问题: 容器环境下,owner和group需要设置为root:root。
  5. rank_table_file格式问题: 建议使用程序生成,避免手工编辑错误,简单类型字段应为str类型。
  6. 卡编号和IP信息: 需要联系SRE获取卡IP等硬件信息。
  7. server_id问题: 主机IP和容器IP都可以使用,该字段可能不重要。
  8. config.json配置问题: 需开启多机推理,并正确设置ipAddress和managementIpAddress。
  9. mindie-service服务调试问题: 服务拉起失败时,通常不会显示错误信息。需要检查日志目录($HOME/mindie)查找原因,例如缺少pip包。

4. 未解问题

1.4T的模型复制和加载耗时较长,模型复制需要十几分钟,模型加载需要一个小时以上。这部分有很大的优化空间,需要依赖华为提供解决方案。


联系作者

文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...