YOLO:
PPT 可以说是讲得相当之清楚了。。。 deepsystems.io 中文翻译: https://zhuanlan.zhihu.com/p/24916786 图解YOLO YOLO核心思想:从R-CNN到Fast R-CNN一直采用的思路是proposal+分类 (proposal 提供位置信息, 分类提供类别信息)精度已经很高,但是速度还不行。 YOLO提供了另一种更为直接的思路: 直接在输出层回归bounding box的位置和bounding box所属的类别(整张图作为网络的输入,把 Object Detection 的问题转化成一个 Regression 问题)。 YOLO的主要特点: 速度快,能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒。 使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少。 泛化能力强。 大致流程: Resize 成448*448,图片分割得到7*7网格(cell) CNN提取特征和预测 :卷积不忿负责提特征。全链接部分负责预测 :a) 7*7*2=98个bounding box(bbox) 的坐标 和是否有物体的confidence 。 b) 7*7=49个cell所属20个物体的概率。 过滤 bbox(通过nms) 网络设计: 网络结构借鉴了 GoogLeNet 。24个卷积层,2个全链接层。