Coursera Deep Learning笔记 改善深层神经网络:优化算法
笔记:Andrew Ng's Deeping Learning视频 参考: https://xienaoban.github.io/posts/58457.html 本章介绍了优化算法,让神经网络运行的更快 Mini-batch 梯度下降 将 \(X = [x^{(1)}, x^{(2)}, x^{(3)}, ..., x^{(m)}]\) 矩阵所有 \(m\) 个样本划分为 \(t\) 个 子训练集 每个子训练集称为 \(x^{\{i\}}\) , 每个子训练集内样本个数均相同(若每个子训练集有1000个样本, 则 \(x^{\{1\}} = [x^{(1)}, x^{(2)}, ..., x^{(1000)}]\) ,维度为 \((n_x,1000)\) . 若m不能被子训练集样本数整除, 则最后一个子训练集样本可以小于其他子训练集样本数. \(Y\) 亦然. 训练时, 每次迭代仅对一个子训练集进行梯度下降: \[\begin{aligned} & \text{Repeat} :\\ & \qquad \text{For } i = 1, 2, ..., t: \\ & \qquad \qquad \text{Forward Prop On } X^{\{i\}} \\ & \qquad \qquad \text{Compute Cost } J^{\{i\}} \\ &