强化学习和自动编码机

softmax损失函数

交叉熵函数： $C = -\sum_i y_iln(a_i), ~~~ a_i是output$

强化学习目标：找到这样一中策略，使得所有步数产生的累计奖励和最大。

Q-Learning
Bellman方程：
$Q(s, a) = Q(s, a) + \alpha * [R(s, a) + \gamma * max_{a^,}(Q(s^,, a^,)) - Q(s, a)]$
Actor-Critic
Q表用神经网络替代；
TD（时间差分，融合了蒙特卡洛法和动态规划）：
$TD = v(s_t) - [\alpha * r(s_t, a_t )+ v(s_{t + 1})]$
DQN
DQN在A2C基础上作了进一步改进：
$\epsilon-$ exploration：随机选取动作
exploitation：利用已经获得的信息
experience replay：从以往记录中抽取 $(s_t, a_t, r_t, s_{t + 1})$ ，避免连续样本间的相关性

AE
主要注意点是训练样本和测试样本的选择。
原始 $x$ -> 处理后的 $x^,$ 为模型输入 -> 输出 $y$ , $min(||y - x||^2)$

来源：CSDN

作者：xiaoxiao落木

链接：https://blog.csdn.net/qq_28133013/article/details/104179855

标签

易学教程内所有资源均来自网络或用户发布的内容，如有违反法律规定的内容欢迎反馈！
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!