完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

能在单台 Mac Studio 上运行！

原标题：完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！
文章来源：机器之心
内容字数：10445字

DeepSeek R1 671B 模型本地部署简明教程

本文介绍了如何在本地部署 DeepSeek R1 671B 全量模型，并重点阐述了如何利用 Unsloth AI 提供的动态量化版本，大幅降低模型体积，从而在消费级硬件上运行。

1. 模型选择与压缩

原版 DeepSeek R1 671B 模型文件高达 720GB，难以本地部署。Unsloth AI 提供了动态量化版本，通过对关键层进行高质量量化，对非关键层进行低比特量化，将模型压缩至 131GB-212GB。作者推荐了两种量化版本：DeepSeek-R1-UD-IQ1_M (1.73-bit,158GB) 和 DeepSeek-R1-Q4_K_M (4-bit,404GB)，用户可根据硬件条件选择。

2. 硬件需求与运行环境

部署大模型主要受限于内存和显存。DeepSeek-R1-UD-IQ1_M 需要至少 200GB 内存+显存，DeepSeek-R1-Q4_K_M 需要至少 500GB。作者使用四路 RTX 4090 和四通道 DDR5 内存的工作站进行测试，短文本生成速度分别为 7-8 token/秒和 2-4 token/秒。文章也列举了更具性价比的选项，如 Mac Studio (192GB 统一内存) 或配备多张 80GB 显存 GPU 的服务器/云服务器。

3. 部署步骤

本文详细介绍了在 Linux 环境下使用 ollama 部署模型的步骤：

从 HuggingFace 下载模型的 .gguf 文件并合并。
安装 ollama。
创建 Modelfile 文件，指定模型路径、GPU 使用数量 (num_gpu) 和上下文窗口大小 (num_ctx) 等参数。
使用 ollama create 命令创建模型。
使用 ollama run 命令运行模型，并使用 –verbose 参数查看推理速度。
(可选) 安装 Open WebUI 建立网页界面。

4. 实测结果与观察

作者进行了初步测试，发现：

1.73-bit 和 4-bit 版本在经典任务中表现良好。
全量模型显著优于蒸馏版模型。
4-bit 版本比 1.73-bit 版本更 “保守”，对“攻击性”提示的回应更谨慎。
1.73-bit 版本偶尔生成格式混乱的内容。
CPU 利用率极高，GPU 利用率低，说明性能瓶颈在于 CPU 和内存带宽。

5. 结论与建议

作者建议在消费级硬件上使用 1.73-bit 版本进行短文本生成等轻量级任务，避免长文本和多轮对话。文章最后鼓励读者在评论区分享部署经验和问题。

联系作者

文章来源：机器之心
作者微信：
作者简介：专业的人工智能媒体和产业服务平台

阅读原文

# AIGC动态 # 671B模型本地部署 # MoEDeepSeekR1本地化教程 # 低资源大模型部署 # 大模型本地化方案 # 本地化部署MoEDeepSeekR1

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

完整的671B MoE DeepSeek R1怎么塞进本地化部署？详尽教程大放送！

能在单台 Mac Studio 上运行！

DeepSeek R1 671B 模型本地部署简明教程

1. 模型选择与压缩

2. 硬件需求与运行环境

3. 部署步骤

4. 实测结果与观察

5. 结论与建议

联系作者

不想漫无目的刷手机，这个应用比「笨手机」更有效

o3-mini物理推理粉碎DeepSeek R1，OpenAI王者归来！全网最全实测来袭

相关文章

暂无评论

ChatGPT

玩虚拟模特？