Precise Detection in Densely Packed Scenes论文详解
《Precise Detection in Densely Packed Scenes》 是发表在2019cvpr上的文章并且有源码。 代码地址:https://github.com/eg4000/SKU110K_CVPR19 这篇文章的目的是对于一些人为的密集场景的物体进行检测定位。如下图所示,在一些商店的货架上待售商品摆放密集。使用一些SOTA的方法如RetinaNet,会出现检测框重叠的问题,如图中a所示。使用文章方法可以减少这种问题,如图中b所示。其中c和d是对a和b的局部区域放大的结果。 文章方法分为四步,图片输入,网络提取特征,EM-Merger推断,NMS,不完全对应但基本可以用下图表示。 一、网络结构 如上图中的b所示,文章采用resnet50作为主干网络,网络采用FPN框架,网络有三个输出分支都采用了RPN结果,其中有两个和RetinaNet一样。 一个是detection head,是用来回归定位物体的,输出为(x,y,h,w)坐标,用来表示网络检测的物体坐标。 第二个是classification,是用来说明是什么物体的,输出的值取值在0-1之间。 第三个是新提出来的,取名为soft-iou layer。 1.1 Soft-IoU Layer 先说明一下为什么要提出这个网络层。在一般的物体检测算法中,检测出来的框要经过一个叫NMS的后处理