标签:奖励模型

DeepSeek R1爆火后,该如何理解 LLM 中的强化学习算法?

讨论下我们到底该如何理解 LLM 中所涉及到的 RL 算法。
阅读原文

什么是奖励模型(Reward Model)

奖励模型是强化学习中的一个核心概念,用于评估智能体在特定状态下的行为表现。在大型语言模型(LLMs)中,奖励模型通过对输入的问题和答案进行评分,指导模...
阅读原文