标签:动作价值函数

什么是Q-learning

强化学习中的Q-learning是一种无模型的强化学习算法,通过学习一个动作价值函数Q(s, a)来找到最优策略。在给定状态下,Q(s, a)表示执行动作a的预期未来奖励总...
阅读原文