(十三)从零开始学人工智能-强化学习:值函数近似和策略梯度
强化学习–值函数近似和策略梯度 文章目录 强化学习--值函数近似和策略梯度 1. 值函数近似 1.1 线性函数近似 1.1.1 状态价值函数近似 1.1.2 动作价值函数近似 1.2 深度神经网络近似 2. 策略梯度 声明 参考资料 前两节内容都是强化学习的一些基础理论 ,只能解决一些中小规模的问题,实际情况下很多价值函数需要一张大表来存储,获取某一状态或动作价值的时候通常需要一个查表操作,这对于某些状态或动作空间很大的问题几乎无法求解,而许多实际问题拥有大量状态或动作,甚至是连续的状态和动作。那么,如何解决实际问题呢?主要有两种方法:值函数近似和策略梯度。 1. 值函数近似 强化学习可以用来解决大规模问题,例如西洋双陆棋(Backgammon)有 1 0 20 10^{20} 1 0 2 0 个状态空间,围棋AlphaGo有 1 0 170 10^{170} 1 0 1 7 0 状态空间,机器人控制以及无人机控制需要的是一个连续状态空间。如何才能将强化学习应用到这类大规模的问题中,进而进行预测和控制呢? (1)使用值函数近似的解决思路可以是这样的: ①、通过函数近似来估计实际的价值函数: v ^ ( s , ω ) ≈ v π ( s ) \hat v(s,\omega ) \approx {v_\pi }(s) v ^ ( s , ω ) ≈ v π ( s ) q ^ (