昇腾 910B 部署满血 DeepSeek-R1.
原标题:昇腾 910B 部署满血 DeepSeek-R1不完全避坑指南
文章来源:智猩猩GenAI
内容字数:3623字
智猩猩DeepSeek大模型R1部署实战经验分享
本文总结了作者团队在昇腾910B平台部署DeepSeek R1大模型的经验,包括总体方案、部署过程、踩坑指南以及未解问题等方面,为其他开发者提供参考。
1. 部署背景与总体方案
作者团队在春节后决定在910B 16卡训练机器上部署DeepSeek R1模型。由于R1模型权重为FP8格式,而昇腾卡不支持FP8,需要将其转换为BF16格式。这导致模型权重接近1.4T,需要两台机器共32张昇腾910B卡才能满足需求。部署基于MindIE框架,并利用华为提供的教程和软件。
2. 部署过程与效果
团队在一天内成功启动服务并收到R1模型的回复,响应速度符合预期。虽然过程相对顺利,但仍遇到一些挑战,将在后续章节详细说明。
3. 部署踩坑指南
本节总结了部署过程中遇到的问题及解决方案,主要围绕华为提供的部署文档展开:
- 权重转换问题: R1模型的权重转换脚本位于V3项目中,且需要支持FP8的NVIDIA设备才能运行。如果只有低端支持FP8的硬件,则必须使用该脚本转换模型;NPU路线可能更顺利。无论GPU还是NPU方案,其他文件都需要手工复制。
- 镜像问题: 文档提供的镜像可能是arm平台的,x86用户需要切换到手工安装软件/构建镜像的路线。
- 软件安装问题: 昇腾相关的特定POC软件需要联系华为获取,并按照步骤完整安装,避免遗漏。
- 权限问题: 容器环境下,owner和group需要设置为root:root。
- rank_table_file格式问题: 建议使用程序生成,避免手工编辑错误,简单类型字段应为str类型。
- 卡编号和IP信息: 需要联系SRE获取卡IP等硬件信息。
- server_id问题: 主机IP和容器IP都可以使用,该字段可能不重要。
- config.json配置问题: 需开启多机推理,并正确设置ipAddress和managementIpAddress。
- mindie-service服务调试问题: 服务拉起失败时,通常不会显示错误信息。需要检查日志目录($HOME/mindie)查找原因,例如缺少pip包。
4. 未解问题
1.4T的模型复制和加载耗时较长,模型复制需要十几分钟,模型加载需要一个小时以上。这部分有很大的优化空间,需要依赖华为提供解决方案。
联系作者
文章来源:智猩猩GenAI
作者微信:
作者简介:智猩猩旗下账号,专注于生成式人工智能,主要分享技术文章、论文成果与产品信息。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...