一个专注于整理最佳开源推理数据集的社区项目
DeepSeek-R1-Zero 是一款通过大规模强化学习训练的推理模型,无需监督微调即可实现卓越推理能力。
DeepSeek-R1-Distill-Qwen-7B 是一个开源的推理模型,专注于数学、代码和推理任务。
OpenAI o3-mini 是 OpenAI 推出的最新高性价比推理模型,专为 STEM 领域优化。
UIGEN-T1-Qwen-7b 是一个基于 Qwen2.5-Coder-7B-Instruct 的 70 亿参数模型,用于推理生成 HTML 和 CSS 基础的 UI 组件。
Dolphin R1是一个用于训练推理模型的数据集,包含80万条样本。
s1是一个基于Qwen2.5-32B-Instruct微调的推理模型,仅用1000个样本进行训练。