一、Comparison to Other Detection Systems（与其他检测系统的比较）

1、Comparison to Other Real-Time Systems（与其他实时系统的比较）

2、VOC 2007 Error Analysis（VOC 2007误差分析）

3、Combining Fast R-CNN and YOLO（ Fast R-CNN与YOLO的结合）

4、VOC 2012 Results（VOC 2012结果）

5、 Generalizability: Person Detection in Artwork（概述：图像中的人物检测）

三、Real-Time Detection In The Wild（自然环境下的实时检测）

四、Conclusion（结论）

前言

昨天第一部分的笔记已经发布，第一部分介绍了YOLO的概述及其检测原理。如果大家第一次打开的是这篇博客，希望大家可以抽空先看一下论文笔记1，如果大家对YOLO有了一定了解，对YOLO的原理也掌握的很好，可以跳过。

这篇博客中主要是讲如下几个方面：

1.YOLO与其他检测系统的对比，我们可以通过这一部分对YOLO和相关检测系统之间的对比：YOLO和已有的一些物体检测方法有什么区别，他们各自的优点和缺点是什么，YOLO比他们强在哪里。

2.YOLO实验，该模块包括实时性对比，误差分析，与Fast R-CNN结合等，通过这部分能够认识到YOLO各个方面性能如何，能让大家在应用实战方面有更深的理解。

3.YOLO实时检测，这一部分，我们能够简单了解到YOLO的实时检测如何实现，该部分的具体内容在YOLO官网https://pjreddie.com/darknet/yolo/，在本论文中并未过多提及，大家需要上YOLO官网查看学习，后续我也会写相关博客。

4.结论，该部分是对论文的总结，内容比较简单。

注：

1.所有英文+后面括号标注的翻译（标题除外）是由于小编英文较差，有些词语不知道如何用汉语表达更为贴切，所以借用YOLO作者原有单词，括号里面标注的翻译均为小编本人理解的翻译，如果大家觉得翻译有误，欢迎批评指出。

2.本文主要以对论文原文的翻译及作者个人理解，只为同大家一同分享学习，有不同见解，欢迎大家评论交流。

3.本文中多次提到 artwork ，我个人理解，这个是针对自然图像提出来的，在我自己的理解中，自然图像指的是真实的世界通过摄像等方式不经过后期处理或经过简单的明暗度，曝光度处理得到的真实的图像，而artwork是人创造出来的艺术类图像，比如卡通图画，艺术家创作的画，图片的深度处理等等。如果大家对我的理解有其他意见，欢迎大家一起讨论交流。

接下来让我们进入今天的内容。

一、Comparison to Other Detection Systems（与其他检测系统的比较）

目标检测是计算机视觉中的一个核心问题。Detection pipelines（检测流程）一般从输入图像(Haar、SIFT、HOG、卷积特征)中提取一组鲁棒特征开始。然后，分类器或定位器用于识别特征空间中的对象。这些分类器或定位器要么以滑动窗口方式运行在整个图像上，要么运行在图像中的一些区域子集上。我们将YOLO检测系统与几个顶部检测框架进行比较，突出关键相似性和差异。

DPM（可变形的组件模型）（一种基于组件的检测算法）。DPM使用滑动窗口方法进行物体检测。DPM使用不相交流程提取静态特征、分类区域、预测高得分区域的边界框等。我们的系统用一个卷积神经网络代替所有这些不相干的部分。该网络同时进行特征提取、边界盒预测、非极大值抑制和上下文推理。网络代替静态特征，在线训练特征并优化它们用于检测任务。我们的统一模型导致了比DPM更快速、更精确的模型。

R-CNN.R-CNN及其变体使用区域建议而不是滑动窗口来查找图像中的对象。选择性搜索[35]生成潜在的边界框，卷积网络提取特征，SVM对框进行评分，线性模型调整边界框，非最大抑制消除重复检测。这个复杂的流水线的每个阶段必须独立地精确地调整，并且产生的系统非常慢，在测试时每幅图像花费超过40秒。

YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框，并使用卷积特征对这些框进行评分。然而，我们的系统对网格单元的建议施加了空间约束，这有助于减少对同一物体的多次检测。我们的系统还提出了更少的边框，每幅图像只有98个，而选择性搜索大约有2000个。

其他Fast Detectors（快速检测器）Fast和Fast R-CNN专注于通过共享计算和使用神经网络来提高R-CNN框架的速度，而不是使用选择性搜索来提出区域。虽然它们提供了比R-CNN更快的速度和精度，但仍然不符合实时性能。

许多研究工作集中在加速DPM流水线上。它们加速了HOG计算，使用级联，并将计算推到GPU。然而，只有30Hz的DPM实际上是实时运行的。

YOLO没有试图优化大型检测流水线的各个组件，而是完全抛弃了流水线，并且通过设计速度很快。

人脸或人等单一类别的检测器可以高度优化，因为它们必须处理更少的变化。YOLO是一种通用的探测器，它能同时检测各种物体。

Deep MultiBox，不同于R-CNN，Szegedy等。训练卷积神经网络来预测感兴趣区域，而不是使用选择性搜索。多盒也可以用单个类预测替换置信预测来执行单个目标检测。然而，MultiBox不能执行一般的对象检测，并且仍然只是更大检测流程中的一部分，需要进一步的图像补丁分类。YOLO和Multbox都使用卷积网络来预测图像中的包围框，但是YOLO是一个完整的检测系统。

OverFeat，Pierre Sermanet（该论文的作者之一）等，训练卷积神经网络进行定位，并使定位器适应检测。OverFeat有效地执行滑动窗口检测，但它仍然是不相交的系统。OverFeat优化了定位，而不是检测性能。与DPM一样，定位器在进行预测时只看到本地信息。OffEAT不能解释全局上下文，因此需要显著的后处理以产生相干检测。

MultiGrasp.我们的工作在设计上类似于Redmon等人在抓取检测方面的工作。我们的网格包围盒预测的方法是基于多抓手系统回归把握。然而，抓取检测是一个比对象检测简单得多的任务。多抓取只需要预测包含单个对象的图像的单个可抓取区域。它不需要估计物体的大小、位置或边界，也不需要预测它的类别，只需要找到一个适合抓取的区域。YOLO预测了图像中多个类的多个对象的包围盒和类概率。

二、Experiments（实验）

首先，我们将YOLO与PASCAL VOC 2007上的其他实时检测系统进行比较。为了理解YOLO和R-CNN变体之间的差异，我们研究了YOLO和R-CNN最高性能版本之一Fast R-CNN在VOC 2007上的错误。根据不同的误差分布，我们证明了YOLO可以用于快速R-CNN检测的重新核化，并减少背景假阳性的误差，从而显著地提高了性能。我们还提出VOC 2012的结果，并比较地图到目前的最先进的方法。最后，我们表明，YOLO推广到新的领域优于其他探测器上的两个artwork datasets（艺术品数据集）。

1、Comparison to Other Real-Time Systems（与其他实时系统的比较）

快速YOLO是PASCAL上最快的目标检测方法，据我们所知，它是现存最快的目标检测器。使用52.7% MAP，它是实时检测的先前工作的两倍以上。YOLO将地图推到63.4%，同时仍保持实时性能。

我们也训练YOLO使用VGG-16。该模型更准确，但也明显慢于YOLO。与依赖VGG-16的其他检测系统相比，这是非常有用的，但是由于它比实时慢，所以本文的其余部分将重点放在更快的模型上。

快速DPM在不牺牲大量mAP的情况下有效地加快了DPM的速度，但是它仍然遗漏了2倍的实时性能。与神经网络方法相比，DPM的检测精度相对较低。

R-CNN去掉R代替了静态边界框建议的选择性搜索。虽然它比R-CNN快得多，但是它仍然缺乏实时性，由于没有好的建议，并且受到显著的准确性打击。（橘色加粗部分为不确定翻译，只能暂时将自己的理解写在这里）快速R-CNN加速了R-CNN的分类阶段，但它仍然依赖于每幅图像需要大约2秒的选择性搜索来生成包围盒建议。因此，虽然它具有较高的mAP，但0.5fps仍远未达到实时性。在我们的测试中，他们的最精确的模型达到7个FPS，而较小的、不准确的模型在18个FPS上运行。Fast R-CNN的VGG-16版本比YOLO高10mAP，但也比YOLO慢6倍。Zeiler-Fergus Faster R-CNN比YOLO慢2.5倍，但精度也较低。

下图是在PASCAL VOC 2007上的实时系统。通过比较快速探测器的性能和速度，我们可以发现Fast YOLO是有记录以来检测PASCAL VOC最快的检测器，其准确度是任何其他实时检测器的两倍。

2、VOC 2007 Error Analysis（VOC 2007误差分析）

为了进一步研究YOLO与最先进的探测器之间的差异，我们查看了VOC 2007的详细结果。我们比较YOLO和Fast R-CNN，因为Fast R-CNN是PASCAL上性能最好的检测器之一，它的检测是公开的。

我们使用HoeMm等人的方法和工具。对于测试时间的每个类别，我们查看该类别的N个预测。每个预测要么是正确的，要么是基于错误类型进行分类的：

下图是 Fast R-CNN 和 YOLO 的误差分析对比，这些图表显示了对于各种类别在上面N（N为该类别中的对象）个检测中本地化和背景错误的百分比。

YOLO努力正确定位物体。本地化误差占YOLO错误的比所有其他来源相结合的更多。Fast R-CNN定位误差小得多，但背景误差大得多。13.6%的顶级检测是错误的，不包含任何对象。Fast R-CNN比YOLO更容易预测背景探测

3、Combining Fast R-CNN and YOLO（ Fast R-CNN与YOLO的结合）

YOLO比Fast R-CNN更少的背景错误。通过使用YOLO消除Fast R-CNN的背景检测，我们得到了显著的性能提升。对于每个R-CNN预测的边界框，我们检查YOLO是否预测一个类似的盒子。如果是这样，我们根据YOLO预测的概率和两个盒子之间的重叠给出预测。

最好的Fast R-CNN模型在VOC 2007测试集上实现了71.8%的映射。当与YOLO结合时，它的mAP增加了3.2%到75%。我们还尝试结合顶部 Fast R-CNN模型与其他几个版本的Fast R-CNN。这些整体将会在mAP产生0.3%和0.6%的小增长。如下图所示。

YOLO的推广不仅仅是模型集成的副产品，因为合并不同版本的Fast R-CNN几乎没有什么好处。更确切地说，正是因为YOLO在测试时犯了各种错误，所以它在提高快速R-CNN的性能方面非常有效。

不幸的是，这种组合并不受益于YOLO的速度，因为我们分别运行每个模型，然后组合结果。然而，由于YOLO是如此之快，和Fast R-CNN相比，它不增加任何有意义的计算时间。

4、VOC 2012 Results（VOC 2012结果）

在VOC 2012的测验中，YOLO的得分为57.9%mAP。这低于目前的水平，更接近使用VGG-16的R-CNN，见下表

我们的系统在小目标方面与最接近的竞争对手比较中。在瓶，羊，电视/监视器这些类别上，YOLO的分类得分比R-CNN或特征编辑低8-10%。然而，在其他类别，如猫和火车YOLO实现更高的性能。

我们结合的Fast R-CNN+YOLO模型是最高的检测方法之一。Fast R-CNN从与YOLO的组合中得到2.3%的改进，在公共排行榜上提升了5个百分点。

5、 Generalizability: Person Detection in Artwork（概述：图像中的人物检测）

目标检测的学术数据集从相同的分布中提取训练和测试数据。在现实世界的应用程序中，很难预测所有可能的用例，并且测试数据可能与系统之前看到的不同。我们将YOLO与 Picasso 数据集和 People-Art 数据集上的其他检测系统进行比较，这两个数据集用于测试artwork上的人物检测。

下图显示了YOLO和其他检测方法之间的性能比较：

作为参考，作者给所有只在VOC 2007数据集训练的模型的人VOC 2007检测AP。在VOC 2012上训练Picasso 模型，而在 VOC 2010上训练People-Art。

R-CNN在VOC 2007上具有较高的AP。然而，当应用于artwork时，R-CNN大幅下降。R-CNN对调整自然图像的边界框建议使用选择性搜索。但R-CNN中的分类器步骤只看到小区域，需要好的建议。

DPM在应用于artwork时能很好地保持其AP。先前的工作理论认为，DPM性能很好，因为它具有强大的对象形状和布局的空间模型。尽管DPM的degrade（降级）不如R-CNN，但它从较低的AP开始。

YOLO在VOC 2007上具有良好的性能，在应用于artwork时，其AP的降级比其他方法要小。与DPM一样，YOLO对物体的大小和形状、物体之间的关系以及物体通常出现的地方进行建模。artwork和自然图像在像素级上是非常不同的，但是它们在物体的大小和形状方面是相似的，因此YOLO仍然可以预测出好的边界框和检测。