MiniMind

MiniMind – 开源的AI模型训练工具，2小时训练25.8M小模型

MiniMind是什么

MiniMind 是一个开源的超小型语言模型项目，旨在以极低的成本帮助个人开发者从零开始构建自己的语言模型。该项目基于轻量化设计，最小版本仅包含25.8M参数，其体积仅为GPT-3的1/7000，非常适合在普通个人GPU上迅速进行训练。MiniMind 提供了完整的训练流程代码，涵盖预训练、监督微调、LoRA微调、强化学习以及模型蒸馏，同时支持多模态能力（例如视觉语言模型MiniMind-V），并与主流框架如transformers和peft兼容。此外，MiniMind还开源了高质量的数据集和自定义分词器，为LLM初学者提供了便捷的入门途径。

MiniMind

MiniMind的主要功能

超低门槛的模型训练：
- 经济实惠：仅需3元人民币的GPU租用费用（基于NVIDIA 3090）。
- 高效训练：完全从零开始训练仅需2小时。
- 轻量化设计：最小模型参数为25.8M，适合在普通设备上进行运行。
全面开源的流程：提供完整的训练代码，涵盖预训练、监督微调（SFT）、LoRA微调、直接偏好优化（DPO）和模型蒸馏。所有核心算法均采用PyTorch原生实现，便于学习和扩展，无需依赖第三方封装。
多种训练技术支持：
- 混合专家（MoE）架构：动态分配计算资源，提升小型模型的学习效率。
- 直接偏好优化（DPO）：无需复杂的奖励模型，直接根据人类的偏好优化模型输出。
- 多模态扩展：支持视觉多模态（MiniMind-V），实现图像对话和图文生成。

MiniMind的技术原理

Transformer架构：基于Transformer的Decoder-Only设计，类似于GPT系列，采用预标准化（Pre-Norm）和RMSNorm归一化方法以提升模型性能，并使用SwiGLU激活函数替代ReLU，以提高训练效率。
混合专家（MoE）技术：在前馈网络（FFN）中引入混合专家模块，动态分配计算资源给不同的“专家”，通过共享和隔离技术提升小模型的学习能力和效率。
轻量化的训练流程：
- 预训练（Pretrain）：使用经过清洗的高质量文本数据进行无监督学习，以积累语言知识。
- 监督微调（SFT）：根据对话模板对模型进行有监督的微调，使其适应对话场景。
- LoRA微调：通过低秩分解更新少量参数，快速适应特定领域或任务。
- 直接偏好优化（DPO）：基于人类偏好的标注数据，优化模型输出的质量。
- 模型蒸馏：模仿大模型的输出，进一步提升小模型的性能。