Non-local Neural Networks 笔记
Non-local Neural Networks基于non-local means的思想捕获远程依赖,提高了视频分类和图片分类的分类精度。 Motivation 捕获远程依赖性在深度神经网络中至关重要。对于序列数据,捕获远程依赖的主要方法是循环操作(循环网络)。对于图片数据,捕获远程依赖的方法是使用一叠卷积层来获取大的接收域。卷积和循环操作都是处理局部的邻近区域(local neighborhood),不管是空间上还是时间上。因此,捕获远程依赖的唯一方法是不断重复卷积或循环操作,把远程依赖纳入到局部依赖中。重复这些局部操作有3点局限性,第一,计算效率不高;第二,引起优化困难;第三,当信息需要在远距离位置来回传递时,多跳模型难以实现。 例如,上图的卷积区域的人脸与卷积区域之外的手脚有依赖关系,需要经过多层卷积层之后才能捕获到这种远程依赖。 在一个短视频中,男孩在玩足球,其中一帧图片中的足球与多帧图片的足球和男孩都有关系,上图每两张图片之间的间隔是8帧。R-CNN只能在相邻两帧图片之间传递依赖关系,想要传递远程依赖,只能多循环几次。 如果模型能直接捕获到这种远程依赖,模型的性能会更好,同时提高运行效率。 Innovation 作者从经典的图像处理算法non-local means中得到启发,提出了non-local操作和non-local块。 non-local means