softmax损失函数
交叉熵函数:C=−i∑yiln(ai), ai是output
“拯救公主”
强化学习目标: 找到这样一中策略,使得所有步数产生的累计奖励和最大。
- Q-Learning
Bellman方程:
Q(s,a)=Q(s,a)+α∗[R(s,a)+γ∗maxa,(Q(s,,a,))−Q(s,a)]
- Actor-Critic
Q表用神经网络替代;
TD(时间差分,融合了蒙特卡洛法和动态规划):
TD=v(st)−[α∗r(st,at)+v(st+1)]
- DQN
DQN在A2C基础上作了进一步改进:
ϵ−exploration:随机选取动作
exploitation:利用已经获得的信息
experience replay:从以往记录中抽取(st,at,rt,st+1),避免连续样本间的相关性
“给未评分的电影打分”
- AE
主要注意点是训练样本和测试样本的选择。
原始x -> 处理后的x,为模型输入 -> 输出y, min(∣∣y−x∣∣2)
