【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>>
名称 | 描述 | 参数 | 备注 |
SGD |
随机梯度下降法,支持动量参数,支持学习衰减率,支持Nesterov动量 |
|
|
Adadelta |
|
建议保持优化器的默认参数不变 | |
Adagrad |
|
||
Adam |
|
该优化器的默认值来源于参考文献 | |
Adamax |
Adamax优化器来自于Adam的论文的Section7,该方法是基于无穷范数的Adam方法的变体。 |
|
默认参数由论文提供 |
Ftrl |
|||
Nadam |
Nesterov Adam optimizer: Adam本质上像是带有动量项的RMSprop,Nadam就是带有Nesterov 动量的Adam RMSprop |
|
默认参数来自于论文,推荐不要对默认参数进行更改。 |
RMSprop |
该优化器通常是面对递归神经网络时的一个良好选择 |
|
除学习率可调整外,建议保持优化器的其他默认参数不变 |
来源:oschina
链接:https://my.oschina.net/divenwu/blog/3147807