强化学习和自动编码机

自闭症网瘾萝莉.ら 提交于 2020-02-06 05:58:17

softmax损失函数

交叉熵函数:C=iyiln(ai),   aioutputC = -\sum_i y_iln(a_i), ~~~ a_i是output

“拯救公主”

强化学习目标: 找到这样一中策略,使得所有步数产生的累计奖励和最大。

  • Q-Learning
    Bellman方程:
    Q(s,a)=Q(s,a)+α[R(s,a)+γmaxa,(Q(s,,a,))Q(s,a)]Q(s, a) = Q(s, a) + \alpha * [R(s, a) + \gamma * max_{a^,}(Q(s^,, a^,)) - Q(s, a)]
  • Actor-Critic
    Q表用神经网络替代;
    TD(时间差分,融合了蒙特卡洛法和动态规划):
    TD=v(st)[αr(st,at)+v(st+1)]TD = v(s_t) - [\alpha * r(s_t, a_t )+ v(s_{t + 1})]
  • DQN
    DQN在A2C基础上作了进一步改进:
    ϵ\epsilon-exploration:随机选取动作
    exploitation:利用已经获得的信息
    experience replay:从以往记录中抽取(st,at,rt,st+1)(s_t, a_t, r_t, s_{t + 1}),避免连续样本间的相关性

“给未评分的电影打分”

  • AE
    主要注意点是训练样本和测试样本的选择。
    原始xx -> 处理后的x,x^,为模型输入 -> 输出yy, min(yx2)min(||y - x||^2)
    在这里插入图片描述
标签
易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!