标签：奖励模型

WPS接入DeepSeek，秒变办公神器！

WPS 大家经常用来日常写作，虽然本身提供了AI功能，但可惜需要会员，本文教你三分钟接入最火的DeepSeek，让WPS秒变办公神器。 DeepSeek API申请地址：http:/...

1年前 (2025)

AI赚钱副业~AI生成影视解说，半个月涨粉变现3.5W+！

这两年大家都在感叹生活不易，然而我想说的是，机会还是有的，但问题不在于有没有，而在于你是否能够认准机会，然后抓住它。接触过很多咨询项目的人，发现...

2年前 (2024)

DeepSeek R1爆火后，该如何理解 LLM 中的强化学习算法？

讨论下我们到底该如何理解 LLM 中所涉及到的 RL 算法。

1年前 (2025)

什么是奖励模型（Reward Model）

奖励模型是强化学习中的一个核心概念，用于评估智能体在特定状态下的行为表现。在大型语言模型（LLMs）中，奖励模型通过对输入的问题和答案进行评分，指导模...

2年前 (2024)