卷积神经网络 | 易学教程

先简单理解一下卷积这个东西。

（以下转自https://blog.csdn.net/bitcarmanlee/article/details/54729807 知乎是个好东西）

1.知乎上排名最高的解释

首先选取知乎上对卷积物理意义解答排名最靠前的回答。
不推荐用“反转/翻转/反褶/对称”等解释卷积。好好的信号为什么要翻转？导致学生难以理解卷积的物理意义。
这个其实非常简单的概念，国内的大多数教材却没有讲透。

直接看图，不信看不懂。以离散信号为例，连续信号同理。

已知x[0] = a, x[1] = b, x[2]=c
这里写图片描述

已知y[0] = i, y[1] = j, y[2]=k
这里写图片描述

下面通过演示求x[n] * y[n]的过程，揭示卷积的物理意义。

第一步，x[n]乘以y[0]并平移到位置0：
这里写图片描述

第二步，x[n]乘以y[1]并平移到位置1
这里写图片描述

第三步，x[n]乘以y[2]并平移到位置2：
这里写图片描述

最后，把上面三个图叠加，就得到了x[n] * y[n]：
这里写图片描述

简单吧？无非是平移（没有反褶！）、叠加。
从这里，可以看到卷积的重要的物理意义是：一个函数（如：单位响应）在另一个函数（如：输入信号）上的加权叠加。

重复一遍，这就是卷积的意义：加权叠加。

对于线性时不变系统，如果知道该系统的单位响应，那么将单位响应和输入信号求卷积，就相当于把输入信号的各个时间点的单位响应加权叠加，就直接得到了输出信号。

通俗的说：
在输入信号的每个位置，叠加一个单位响应，就得到了输出信号。
这正是单位响应是如此重要的原因。

在输入信号的每个位置，叠加一个单位响应，就得到了输出信号。
这正是单位响应是如此重要的原因。

以上是知乎上排名最高的回答。比较简单易懂。

有个回复也可以参考：
楼主这种做法和通常教材上的区别在于：书上先反褶再平移，把输入信号当作一个整体，一次算出一个时间点的响应值；而楼主把信号拆开，一次算出一个信号在所有时间的响应值，再把各个信号相加。两者本质上是相同的。

2.卷积的另外解释

卷积表示为 $y (n) = x (n) * h (n)$

3.卷积的数学定义

前面讲了这么多，我们看看教科书上对卷积的数学定义。
这里写图片描述

4.卷积的应用

用一个模板和一幅图像进行卷积，对于图像上的一个点，让模板的原点和该点重合，然后模板上的点和图像上对应的点相乘，然后各点的积相加，就得到了该点的卷积值。对图像上的每个点都这样处理。由于大多数模板都是对称的，所以模板不旋转。卷积是一种积分运算，用来求两个曲线重叠区域面积。可以看作加权求和，可以用来消除噪声、特征增强。
把一个点的像素值用它周围的点的像素值的加权平均代替。
卷积是一种线性运算,图像处理中常见的mask运算都是卷积，广泛应用于图像滤波。
卷积关系最重要的一种情况，就是在信号与线性系统或数字信号处理中的卷积定理。利用该定理，可以将时间域或空间域中的卷积运算等价为频率域的相乘运算，从而利用FFT等快速算法，实现有效的计算，节省运算代价。

5.补充

另外在知乎上看到非常好也非常生动形象的解释，特意复制粘贴过来。(知乎马同学的解释)

从数学上讲，卷积就是一种运算。
某种运算，能被定义出来，至少有以下特征：
1.首先是抽象的、符号化的
2.其次，在生活、科研中，有着广泛的作用

比如加法：
1.a+b，是抽象的，本身只是一个数学符号
2.在现实中，有非常多的意义，比如增加、合成、旋转等等

卷积，是我们学习高等数学之后，新接触的一种运算，因为涉及到积分、级数，所以看起来觉得很复杂。

这里写图片描述

这两个式子有一个共同的特征：
这里写图片描述

这个特征有什么意义？

只看数学符号，卷积是抽象的，不好理解的，但是，我们可以通过现实中的意义，来习惯卷积这种运算，正如我们小学的时候，学习加减乘除需要各种苹果、糖果来帮助我们习惯一样。

我们来看看现实中，这样的定义有什么意义。

2 离散卷积的例子：丢骰子

我有两枚骰子：

这里写图片描述

把这两枚骰子都抛出去：
这里写图片描述

求：两枚骰子点数加起来为4的概率是多少?
这里问题的关键是，两个骰子加起来要等于4，这正是卷积的应用场景。

我们把骰子各个点数出现的概率表示出来：
这里写图片描述

那么，两枚骰子点数加起来为4的情况有：
这里写图片描述

这里写图片描述

因此，两枚骰子点数加起来为4的概率为：
f(1)g(3)+f(2)g(2)+f(3)g(1)

符合卷积的定义，把它写成标准的形式就是：

(f * g) (4) = \sum m = 1 3 f (4 - m) g (m)

3 连续卷积的例子：做馒头

楼下早点铺子生意太好了，供不应求，就买了一台机器，不断的生产馒头。
假设馒头的生产速度是 f(t) ，那么一天后生产出来的馒头总量为：
$\int_{0}^{24} f (t) d t$

$\int_{0}^{24} f (t) d t$

受Hubel和Wiesel对猫视觉皮层电生理研究启发，有人提出卷积神经网络（CNN），Yann Lecun 最早将CNN用于手写数字识别并一直保持了其在该问题的霸主地位。近年来卷积神经网络在多个方向持续发力，在语音识别、人脸识别、通用物体识别、运动分析、自然语言处理甚至脑电波分析方面均有突破。

卷积神经网络与普通神经网络的区别在于，卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中，一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中，通常包含若干个特征平面(featureMap)，每个特征平面由一些矩形排列的的神经元组成，同一特征平面的神经元共享权值，这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化，在网络的训练过程中卷积核将学习得到合理的权值。共享权值（卷积核）带来的直接好处是减少网络各层之间的连接，同时又降低了过拟合的风险（why?看完CNN怎么运作的你就知道了）。子采样也叫做池化（pooling），通常有均值子采样（mean pooling）和最大值子采样（max pooling）两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度，减少了模型的参数。

（概念里面很多奇奇怪怪的东西，不清楚放着，慢慢看后面的介绍就好了）

二、CNN基本原理

2.1 神经网络（ANN）（这个部分建议看下斯坦福大学吴恩达教授讲授的machine learning 课程，吴老大讲的很清楚 https://www.coursera.org/learn/machine-learning/home/week/4）

2.2 CNN Intuitions

卷积神经网络由三部分构成。第一部分是输入层。第二部分由n个卷积层和池化层的组合组成。第三部分由一个全连结的多层感知机分类器构成。接下来主要介绍一下第二部分。

2.2.1 局部感知野（local receptive field）

感受野：在卷积神经网络CNN中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野receptive field。用数学的语言就是感受野是CNN中的某一层输出结果的一个元素对应输入层的一个映射。再通俗点的解释是，feature map上的一个点对应输入图上的区域。下面介绍一下局部感知野。

一般认为人对外界的认知是从局部到全局的，而图像的空间联系也是局部的像素联系较为紧密，而距离较远的像素相关性则较弱。因而，每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息。网络部分连通的思想，也是受启发于生物学里面的视觉系统结构。视觉皮层的神经元就是局部接受信息的（即这些神经元只响应某些特定区域的刺激）。如下图所示：左图为全连接，右图为局部连接。

上图左：如果我们有1000x1000像素的图像，有1百万个隐层神经元，那么他们全连接的话（每个隐层神经元都连接图像的每一个像素点），就有1000x1000x1000000=10^12个连接，也就是10^12个权值参数。然而图像的空间联系是局部的，就像人是通过一个局部的感受野去感受外界图像一样，每一个神经元都不需要对全局图像做感受，每个神经元只感受局部的图像区域，然后在更高层，将这些感受不同局部的神经元综合起来就可以得到全局的信息了。这样，我们就可以减少连接的数目，也就是减少神经网络需要训练的权值参数的个数了。如上图右：假如局部感受野是10x10，隐层每个感受野只需要和这10x10的局部图像相连接，所以1百万个隐层神经元就只有一亿个连接，即10^8个参数。

2.2.2 权值共享

仅仅靠局部感知野来减少参数是远远不够的（毕竟10^8次方......），在上面的局部连接中，每个神经元都对应100个参数，一共1000000个神经元，如果这1000000个神经元的100个参数都是相等的，那么参数数目就变为100了。

怎么理解权值共享呢？我们可以这100个参数（也就是卷积操作）看成是提取特征的方式，该方式与位置无关。这其中隐含的原理则是：图像的一部分的统计特性与其他部分是一样的。这也意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征。

更直观一些，当从一个大尺寸图像中随机选取一小块，比如说 8x8 作为样本，并且从这个小块样本中学习到了一些特征，这时我们可以把从这个 8x8 样本中学习到的特征作为探测器，应用到这个图像的任意地方中去。特别是，我们可以用从 8x8 样本中所学习到的特征跟原本的大尺寸图像作卷积，从而对这个大尺寸图像上的任一位置获得一个不同特征的激活值。

如下图所示，展示了一个3×3的卷积核在5×5的图像上做卷积的过程。每个卷积都是一种特征提取方式，就像一个筛子，将图像中符合条件（激活值越大越符合条件（什么是激活？百度去。。。））的部分筛选出来。

2.2.3 多卷积核（滤波器）

一般看到权值共享的第一反应就是这个鬼东西靠谱么，就提取一个特征出来。Bingo!一个当然是不够拉，我们根据情况加多个滤波器。假设我们加到100种滤波器，每种滤波器的参数不一样，表示它提出输入图像的不同特征，例如不同的边缘。这样每种滤波器去卷积图像就得到对图像的不同特征的放映，我们称之为Feature Map。所以100种卷积核就有100个Feature Map。这100个Feature Map就组成了一层神经元。来我们算算参数的个数，100种卷积核x每种卷积核共享100个参数=100x100=10K，也就是1万个参数，才一万个！见下图右：不同的颜色表达不同的滤波器。

2.2.4 Down-pooling

在通过卷积获得了特征 (features) 之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax 分类器，但这样做面临计算量的挑战。例如：对于一个 96X96 像素的图像，假设我们已经学习得到了400个定义在8X8输入上的特征，每一个特征和图像卷积都会得到一个 (96 − 8 + 1) × (96 − 8 + 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例 (example) 都会得到一个 7921 × 400 = 3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。

为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。