论文笔记-ReseNet
简介: 第一段: 核心思想:网络的深度对模型性能至关重要。 深度卷积网络自动的整合底层/中层/高层特征,然后进行端到端的分类。这是目前非常流行的识别模式。层次化的特征可以得到充实通过堆砌网络层的数量(也就是增加网络的深度),有证据表明网络的深度至关重要,在ImageNet数据集的大赛上,所有取得领先成绩的模型均采用了非常深的网络。 第二段: 核心思想:梯度消失/梯度爆炸是阻止不断增加网络深度的障碍。 虽然网络的深度对模型性能很重要,但是也不能通过简单的堆砌网络层来得到学习性更好的模型。因为臭名昭著的梯度下降/梯度爆炸问题。然而,这个问题可以通过标准的初始化和中间层标准化得到很大的缓解。通过以上的处理可以使得数十层的模型使用SGD开始收敛。 第三段: 核心思想:非常深的网络可以收敛,但又出现了退化问题。 网络退化问题:当不断的增加模型的深度,不出意料的精度会不断的上升,到饱和,然后会快速的下降。并且出人意料的是,这个问题不是由于过拟合导致的,在一个合适深度的模型增加更多的网络层会得到更大的训练精度。这就是网络退化问题。在论文【11,42】和论文的实验中均得到了证实。 第四段: 核心思想:提出疑问:更深的网络应该得到比较浅网络更低的训练误差,为什么会出现网络退化的问题 假设有一个较浅的模型,和一个较深的模型:再较浅模型后增加几层。存在这样一种可能:后加的几层都是恒等映射