标签:优化策略

什么是策略梯度(Policy Gradients)

策略梯度(Policy Gradients)是强化学习中的一种方法,它直接对策略进行优化。在这种方法中,策略被参数化为一个可微分的函数,策略梯度算法通过计算策略参...
阅读原文