**深度学习调参技巧**
(网上经验总结) 参考1: https://blog.csdn.net/chenzhi1992/article/details/52905569 获取数据: 确保要有高质量的输入/输出数据集,这个数据集要足够大、具有代表性以及拥有相对清楚的标签。 预处理: (数据保持零均值和较小的方差)将数据进行集中,也就是要使数据均值为0,从而使每个维度的每次变动为1。有时,当输入的维度随量级排序变化时,最好使用那个维度的log(1+x)。基本上,重要的是要找到一个0值的可信编码以及自然分界的维度。(如果x的均值很大(例如100),那么权值的更新将会非常大,并且是相互关联的,这使得学习变得低劣而缓慢。) 批处理: 在如今的计算机上每次只执行一个训练样本是很低效的。反之如果进行的是128个例子的批处理,效率将大幅提高,因为其输出量是非常可观的。事实上使用数量级为1的批处理效果不错,这不仅可获得性能的提升同时可降低过度拟合;不过这有可能会被大型批处理超越。但不要使用过大的批处理,因为有可能导致低效和过多过度拟合。所以我的建议是:根据硬件配置选取适合的批处理规模,量力而为会更加高效。 梯度归一化: 根据批处理的大小来拆分梯度。因为如果对批处理进行倍增(或倍减),无需改变学习率(无论如何,不要太多)。 学习率计划: 从一个正常大小的学习率(LR)开始,朝着终点不断缩小。 学习率计划: