标签:强化学习算法

Long-Cot该如何做之RedStar&Zero-RL的启示

本文主要介绍我们在弱teacher上蒸馏的经验和在zero-rl的一些新的结果和思考。
阅读原文

MiniMax-01技术报告解读以及与DeepSeek-V3对比

本文介绍了 MiniMax-01 系列模型。
阅读原文