12中主要的Dropout方法:如何应用于DNNs,CNNs,RNNs中的数学和可视化解释
作者:Axel Thevenot 编译:ronghuaiyang 原文链接: 12中主要的Dropout方法:如何应用于DNNs,CNNs,RNNs中的数学和可视化解释 mp.weixin.qq.com 深入了解DNNs,CNNs以及RNNs中的Dropout来进行正则化,蒙特卡洛不确定性和模型压缩的方法。 动机 在深度机器学习中训练一个模型的主要挑战之一是协同适应。这意味着神经元是相互依赖的。他们对彼此的影响相当大,相对于他们的输入还不够独立。我们也经常发现一些神经元具有比其他神经元更重要的预测能力的情况。换句话说,我们会过度依赖于个别的神经元的输出。 这些影响必须避免,权重必须具有一定的分布,以防止过拟合。某些神经元的协同适应和高预测能力可以通过不同的正则化方法进行调节。其中最常用的是 Dropout 。然而,dropout方法的全部功能很少被使用。 取决于它是 DNN ,一个 CNN 或一个 RNN ,不同的 dropout方法 可以被应用。在实践中,我们只(或几乎)使用一个。我认为这是一个可怕的陷阱。所以在本文中,我们将从数学和可视化上深入到dropouts的世界中去理解: 标准的Dropout方法 标准Dropout的变体 用在CNNs上的dropout方法 用在RNNs上的dropout方法 其他的dropout应用(蒙特卡洛和压缩) 符号 标准的Dropout