文章目录 Background Quick Facts Key Equations DDPG的Q-learning部分 DDPG的策略学习部分 Exploration vs. Exploitation(探索vs.利用) Documentation References Why These Papers? Background DDPG是一种同时学习Q-函数和策略的算法。它使用off-policy的数据以及bellman方程去学习Q函数,然后用Q函数去学习策略。 这种方法与Q-learning联系密切,源于那么一种思路:如果你知道最优的动作值函数 Q ∗ ( s , a ) Q^*(s,a) Q ∗ ( s , a ) , 则当给定状态,最优动作 a ∗ ( s ) a^*(s) a ∗ ( s ) 可以通过解决一下问题而找出: a ∗ ( s ) = arg max a Q ∗ ( s , a ) . a^*(s) = \arg \max_a Q^*(s,a). a ∗ ( s ) = ar g a max Q ∗ ( s , a ) . DDPG将学习 Q ∗ ( s , a ) Q^*(s,a) Q ∗ ( s , a ) 的近似与学习 a ∗ ( s ) a^*(s) a ∗ ( s ) 的近似进行交织,并且这样做的方式特别适合于具有连续动作空间的环境。但是