Deformable Convolutional Networks
1 空洞卷积 1.1 理解空洞卷积 在图像分割领域 ,图像输入到CNN(典型的网络比如FCN)中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像尺寸的同时增大感受野,但是由于图像分割预测是pixel-wise的输出,所以要将pooling后较小的图像尺寸upsampling到原始的图像尺寸进行预测,之前的pooling操作使得每个pixel预测都能看到较大感受野信息。因此图像分割FCN中有两个关键,一个是pooling减小图像尺寸增大感受野,另一个是upsampling扩大图像尺寸。在先减小再增大尺寸的过程中,肯定有一些信息损失掉了,那么能不能设计一种新的操作,不通过pooling也能有较大的感受野看到更多的信息呢?答案就是dilated conv。 (a) 普通卷积,1-dilated convolution,卷积核的感受野为3×3 (b) 扩张卷积,2-dilated convolution,卷积核的感受野为7×7 (c) 扩张卷积,4-dilated convolution,卷积核的感受野为15×15 (a)图对应3x3的1-dilated conv,和普通的卷积操作一样. (b)图对应3x3的2-dilated conv,实际的卷积kernel size还是3x3,但是空洞为1,也就是对于一个7x7的图像patch