强化学习介绍
强化学习算法类型 策略梯度:可直接区别以上的目标 基于值:估计最优策略(不明确哪个是最优的策略情况下估计)的值函数和Q函数 Actor-critic(演员-评论家):使用当前策略去估计值函数和Q函数来改进策略 基于模型:估计转换模型,接着 1.让该模型去规划不明确的策略 2.让该模型去改进策略 3.其他 比较: 有监督学习:几乎都是使用梯度下降 强化学习:通常不使用梯度下降 特定算法示例: • 值函数方法 • Q-learning, DQN • Temporal difference learning • Fitted value iteration • 策略梯度方法 • REINFORCE • Natural policy gradient • Trust region policy optimization • Actor-critic方法 • Asynchronous advantage actor-critic (A3C) • Soft actor-critic (SAC) • Model-based方法 • Dyna • Guided policy search 应用举例: 例1: 用Q函数玩Atari games 论文参考: • Playing Atari with deep