原标题:10美元成功复现DeepSeek顿悟时刻,3B模型爆发超强推理!微软论文反驳涌现
文章来源:新智元
内容字数:15923字
复刻DeepSeek“顿悟时刻”:低成本高效能的AI推理新突破
近日,AI领域再次掀起波澜,来自荷兰的研究人员Raz仅用不到10美元的成本,在3B模型上复刻了DeepSeek的“顿悟时刻”,刷新了复刻成本的最低纪录。与此同时,微软亚研院的研究也印证了强化学习在提升大型语言模型推理能力上的巨大潜力,但对“顿悟时刻”的存在提出了质疑。
1. Raz的低成本复刻:Reinforce-Lite算法的威力
Raz采用了一种轻量级的强化学习算法——Reinforce-Lite,成功地在资源受限的条件下(48GB RTX 6000显卡和10美元),让3B模型展现出回溯、自我反思和逻辑推理等高级推理能力。他巧妙地简化了强化学习算法的复杂性,避免了PPO等算法中复杂的组件和超参数调整,从而大幅降低了计算成本。Reinforce-Lite去除了对替代目标比率和旧策略模型的需求,通过单一策略神经网络稳定训练过程,并有效地赋予了模型推理能力。
在GSM8K数学数据集上,Raz的模型通过端到端强化学习训练,在准确率上取得了显著提升。其训练过程的关键在于:简单的奖励函数设计(正确答案奖励+1,错误答案奖励-1)、分组相对归一化优势计算,以及使用梯度裁剪替代KL散度计算,保证了训练的稳定性。
2. 微软亚研院的研究:7B模型的高级推理能力与“顿悟时刻”的探讨
微软亚研院的研究团队受DeepSeek-R1启发,利用强化学习训练了一个7B模型,使其具备了反思、验证和总结等高级推理技能。他们使用合成逻辑谜题作为训练数据,并设计了严格的奖励函数和训练方案,避免了模型作弊。研究结果表明,7B模型在解决逻辑谜题上表现出色,并展现出多轮径探索、回溯、应用逻辑公式等能力。然而,研究人员并没有观察到模型出现突发的“顿悟时刻”,而是推理能力的逐步提升。
该研究团队认为,复杂的推理行为并非在某个特定训练步骤中突然出现,而是通过强化学习机制逐步培养形成的。模型中反思性词汇、会话性短语和谨慎词汇的频率稳步增加,没有出现突然的跳跃,支持了这一结论。 此外,研究还发现,更长的回答并不一定代表更好的推理,语言混合会阻碍推理,而课程学习仍然至关重要。
3. 两项研究的共同点与差异
两项研究都证明了强化学习在提升大型语言模型推理能力上的巨大潜力,并都探索了简化强化学习算法以降低计算成本的方法。然而,它们在“顿悟时刻”的存在性上存在差异:Raz的研究似乎观察到了类似“顿悟时刻”的现象,而微软亚研院的研究则认为推理能力是逐步提升的,没有突发的飞跃。
未来,对强化学习算法的进一步优化和对模型推理机制的深入研究,将有助于更好地理解大型语言模型的学习过程,并推动其在更广泛领域的应用。
联系作者
文章来源:新智元
作者微信:
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人对人类社会与文明进化的影响,领航中国新智能时代。