论文：MobileFaceNets: Efficient CNNs for Accurate RealTime Face Verification on Mobile Devices

0 摘要

作者简单分析了普通的移动式设备上部署的网络应用于人脸验证任务时的缺点，并克服这个缺点设计了高效、准确的人脸验证模型MobileFaceNets。在相同的实验条件下，MobileFaceNets和MobileNetV2识别准确率相当，但速度要快了两倍。使用arcface loss，基于MS-Celeb-1M数据集，大小仅为4MB的MobileFaceNets模型在LFW上取得了99.55%的人脸验证准确率，在MegaFace上FAR=1e-6时的TAR为92.59，这个准确率和大小为数百MB的大模型相当。最快的一个MobileNets在手机上的推理时间仅为18ms。综合来看，MobileFaceNets效率比之前的移动式模型有了很大的提升。

1 核心思想

1.1 传统的轻量化网络用于人脸验证任务时的弊端

轻量化网络，如MobileNetV1，ShuffleNet和MobileNetV2，都使用了全局平均池化层GAP。对于人脸验证和识别任务，有的论文提到使用了GAP之后识别准确率会降低，但这些论文都没有给出理论上的解释。这里，作者尝试从感受野的角度出发来解释下这个问题。

作者使用MTCNN进行人脸检测得到大小为112 x 112的人脸图像，使用提取的五个特征点进行人脸对齐，然后对获取的人脸图像进行提特征操作。提特征时人脸图像的预处理减去127.5的均值，除以128进行归一化。整个处理过程如图1所示。

在这里插入图片描述作者使用MobileNetV2进行人脸特征的提取，因为MobileNetV2的默认输入大小为224 x 224，而这里输入的图像大小却为112 x 112，所以将MobileNetV2第一个卷积层的stride从2变成了1，最后一个卷积层的输出feature map(表示为FMap-end)的空间尺寸为7 x 7。虽然理论上FMap-end的中心和边缘像素点具有相同的局部感受野，但它们对应的却是输入图像的不同区域。如图1所示，FMap-end中心点(红点)对应的局部感受野为图像的中心区域，FMap-end边缘点(绿点)对应的局部感受野位于图像的边缘区域。由于感受野中不同位置的像素对输出的影响类似于高斯分布，因此感受野中心的像素比边缘的像素对输出的影响更大。FMap-end的边缘点的有效感受野区域要比中心点的有效感受野区域要小。那么如果输入图像是对齐的人脸，那么FMap-end边缘点比中心点表达的人脸信息要少。所以，FMap-end不同位置的像素点对于提取的人脸特征的重要性是不同的。

在MobileNetV2中，FMap-end的维度是62720，这个维度值太大不适合直接作为人脸特征，因此使用了GAP操作，但实验证明GAP操作会降低识别准确率。根据上面的分析，GAP操作时把空间上的各像素点认为是同等重要度是不合适的。如果不用GAP而是使用全连接层又会造成参数量大幅增加，自然也就制约了模型的推理速度。

3.2 全局深度卷积

作者将GAP层替换为全局深度卷积(GDConv)，也就是卷积核的空间尺寸和输入的尺寸一样，pad=0，stride=1。深度卷积的输出是：
在这里插入图片描述
F是输入的feature map，尺寸是W x H x M，K是深度卷积的卷积核，尺寸是W x H x M，那么G的尺寸就是1 x 1 x M。深度分离卷积的总的计算量是：

将用深度卷积替换了GAP的MobileNetV2网络称为MobileNetV2-GDConv。在WebFace上使用arcface loss，分别使用MobileNetV2和MobileNetV2-GDConv训练模型，在LFW和AgeDB上进行人脸验证实验。结果如下表：
在这里插入图片描述从表的前4行可以看出，MobileNetV2-GDConv还是有很大提升的。

1.3 MobileFaceNet结构

在这里插入图片描述从表2可以看出，激活函数从Relu换成PRelu，识别准确率略有提升；用了BN和batch normalization folding。

基准模型的参数量为0.99million，计算量为221million。为了进一步减少计算量，作者将模型的输入从112 x 112 减小到了 112 x 96 或 96 x 96，并且移除了最后一个1x1卷积层以进一步减少参数量，得到了网络MobileFaceNet-M。从MobileFaceNet-M再移除GDConv前的1x1卷积层得到了MobileFaceNet-S。

从表2中可以看出MobileFaceNet族的效果和效率的优越性。

在这里插入图片描述