自适应学习率调整:AdaDelta
本文转载自: https://www.cnblogs.com/neopenx/p/4768388.html 作者:neopenx 转载请注明该声明。 Reference: ADADELTA: An Adaptive Learning Rate Method 超参数 超参数(Hyper-Parameter)是困扰神经网络训练的问题之一,因为这些参数不可通过常规方法学习获得。 神经网络经典五大超参数: 学习率(Leraning Rate)、权值初始化(Weight Initialization)、网络层数(Layers) 单层神经元数(Units)、正则惩罚项(Regularizer|Normalization) 这五大超参数使得神经网络更像是一门实践课,而不是理论课。 懂神经网络可能只要一小时,但是调神经网络可能要几天。 因此,后来Vapnik做SVM支持向量机的时候,通过巧妙的变换目标函数,避免传统神经网络的大部分超参数, 尤其是以自适应型的支持向量替代人工设置神经元,这使得SVM可以有效免于过拟合之灾。 传统对抗这些超参数的方法是经验规则( Rules of Thumb )。 这几年,随着深度学习的推进,全球神经网络研究者人数剧增,已经有大量研究组着手超参数优化问题: ★深度学习先锋的RBM就利用Pre-Traning自适应调出合适的权值初始化值。