完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

能在单台 Mac Studio 上运行!

完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!

原标题:完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!
文章来源:机器之心
内容字数:10445字

DeepSeek R1 671B 模型本地部署简明教程

本文介绍了如何在本地部署 DeepSeek R1 671B 全量模型,并重点阐述了如何利用 Unsloth AI 提供的动态量化版本,大幅降低模型体积,从而在消费级硬件上运行。

1. 模型选择与压缩

原版 DeepSeek R1 671B 模型文件高达 720GB,难以本地部署。Unsloth AI 提供了动态量化版本,通过对关键层进行高质量量化,对非关键层进行低比特量化,将模型压缩至 131GB-212GB。作者推荐了两种量化版本:DeepSeek-R1-UD-IQ1_M (1.73-bit,158GB) 和 DeepSeek-R1-Q4_K_M (4-bit,404GB),用户可根据硬件条件选择。

2. 硬件需求与运行环境

部署大模型主要受限于内存和显存。DeepSeek-R1-UD-IQ1_M 需要至少 200GB 内存+显存,DeepSeek-R1-Q4_K_M 需要至少 500GB。作者使用四路 RTX 4090 和四通道 DDR5 内存的工作站进行测试,短文本生成速度分别为 7-8 token/秒和 2-4 token/秒。文章也列举了更具性价比的选项,如 Mac Studio (192GB 统一内存) 或配备多张 80GB 显存 GPU 的服务器/云服务器。

3. 部署步骤

本文详细介绍了在 Linux 环境下使用 ollama 部署模型的步骤:

  1. 从 HuggingFace 下载模型的 .gguf 文件并合并。
  2. 安装 ollama。
  3. 创建 Modelfile 文件,指定模型路径、GPU 使用数量 (num_gpu) 和上下文窗口大小 (num_ctx) 等参数。
  4. 使用 ollama create 命令创建模型。
  5. 使用 ollama run 命令运行模型,并使用 –verbose 参数查看推理速度。
  6. (可选) 安装 Open WebUI 建立网页界面。

4. 实测结果与观察

作者进行了初步测试,发现:

  1. 1.73-bit 和 4-bit 版本在经典任务中表现良好。
  2. 全量模型显著优于蒸馏版模型。
  3. 4-bit 版本比 1.73-bit 版本更 “保守”,对“攻击性”提示的回应更谨慎。
  4. 1.73-bit 版本偶尔生成格式混乱的内容。
  5. CPU 利用率极高,GPU 利用率低,说明性能瓶颈在于 CPU 和内存带宽。

5. 结论与建议

作者建议在消费级硬件上使用 1.73-bit 版本进行短文本生成等轻量级任务,避免长文本和多轮对话。 文章最后鼓励读者在评论区分享部署经验和问题。


联系作者

文章来源:机器之心
作者微信:
作者简介:专业的人工智能媒体和产业服务平台

阅读原文
© 版权声明
问小白满血版DeepSeek免费不限次数使用

相关文章

问小白满血版DeepSeek免费不限次数使用

暂无评论

暂无评论...