Learning to Segment Every Thing解读
kaiming ross他们一块的又一篇文章,基于mask rcnn的做的一个扩展,他们真是一直在推进着Detection Segmentation领域的发展 Introduction 目前做instance segmentation的方法都需要像素级标注,这样的话就很难有一个类别数目庞大的库做支撑,因为像素级标注太费人力物力财力了,已有的coco也只有80类,pascal voc只有20类,而box的标注相对比较简单, visual gnome 有超过7000类的box标注(本文挑选最常用的3000类),那么本文就在想能不能利用coco 80类的像素级标注和vg 3000类的box标注来训练一个模型可以进行3000类的instance segmentation呢?本文提出了一个 weight transfer function 根据box detection branch的参数来预测mask branch的参数 Framework 在NLP领域中,经常用到的word embedding,就是语义相近的词通过embed后在另一个空间里距离很近,语义不同的词通过embed后在另一个空间里距离很远。在CV领域,我们最后一个fc对物体分类时,比如vgg最后一个fc的参数是4096x #classes,每个类别对应的参数是4096,这个4096维参数可以看做是对该类别的embeding