yolo

YOLO:

人走茶凉 提交于 2019-11-28 03:39:37
PPT 可以说是讲得相当之清楚了。。。 deepsystems.io 中文翻译: https://zhuanlan.zhihu.com/p/24916786 图解YOLO YOLO核心思想:从R-CNN到Fast R-CNN一直采用的思路是proposal+分类 (proposal 提供位置信息, 分类提供类别信息)精度已经很高,但是速度还不行。 YOLO提供了另一种更为直接的思路: 直接在输出层回归bounding box的位置和bounding box所属的类别(整张图作为网络的输入,把 Object Detection 的问题转化成一个 Regression 问题)。 YOLO的主要特点: 速度快,能够达到实时的要求。在 Titan X 的 GPU 上 能够达到 45 帧每秒。 使用全图作为 Context 信息,背景错误(把背景错认为物体)比较少。 泛化能力强。 大致流程: Resize 成448*448,图片分割得到7*7网格(cell) CNN提取特征和预测 :卷积不忿负责提特征。全链接部分负责预测 :a) 7*7*2=98个bounding box(bbox) 的坐标 和是否有物体的confidence 。 b) 7*7=49个cell所属20个物体的概率。 过滤 bbox(通过nms) 网络设计: 网络结构借鉴了 GoogLeNet 。24个卷积层,2个全链接层。

yolov1-yolov3原理

断了今生、忘了曾经 提交于 2019-11-28 01:26:09
YOLOv3原理 YOLO发展概述 2015 年,R-CNN 横空出世,目标检测 DL 世代大幕拉开。 各路豪杰快速迭代,陆续有了 SPP,fast,faster 版本,至 R-FCN,速度与精度齐飞,区域推荐类网络大放异彩。 奈何,未达实时检测之,难获工业应用之青睐。 此时,凭速度之长,网格类检测异军突起,先有 YOLO,继而 SSD,更是摘实时检测之桂冠,与区域推荐类二分天下。然却时遭世人诟病。 遂有 JR 一鼓作气,并 coco,推 v2,增加输出类别,成就 9000。此后一年,作者隐遁江湖,逍遥 twitter。偶获灵感,终推 v3,横扫武林! YOLO不断吸收同化对手,进化自己,提升战斗力:YOLOv1 吸收了 SSD 的长处(加了 BN 层,扩大输入维度,使用了 Anchor,训练的时候数据增强),进化到了 YOLOv2; 吸收 DSSD 和 FPN 的长处,仿 ResNet 的 Darknet-53,仿 SqueezeNet 的纵横交叉网络,又进化到 YOLO 第三形态。 但是,我相信这一定不是最终形态。让我们拭目以待吧! YOLO v1~v3的设计历程 Yolov1 这是继RCNN,fast-RCNN和faster-RCNN之后,rbg(RossGirshick)针对DL目标检测速度问题提出的另外一种框架。YOLO V1其增强版本GPU中能跑45fps

目标检测论文解读8——YOLO v3

六月ゝ 毕业季﹏ 提交于 2019-11-28 00:03:26
背景   要在YOLO v2上作出改进。 方法   (1) 分类器改变 。从softmax loss改变为logistic loss,作用是处理符合标签,softmax loss只能用来预测只有一种类别的目标,logistic loss可以是多种类别。   (2) 引入多级预测机制 。在三种尺度的特征图上做detection。   (3)模仿了ResNet里residual block 的short cut,模型采用Darknet-53。 总结   没创新,效果好。 来源: https://www.cnblogs.com/xin1998/p/11381660.html

目标检测论文解读7——YOLO v2

假如想象 提交于 2019-11-27 23:58:33
背景   YOLO v1检测效果不好,且无法应用于检测密集物体。 方法   YOLO v2是在YOLO v1的基础上,做出如下改进。   (1) 引入很火的Batch Normalization ,提高mAP和训练速度;   (2) 加入了Anchor Box机制 ,每个grid cell5个Anchor Box;   (3) 自动选择Anchor Box ,这是作者所作出的创新,之前Anchor Box都是人为直接规定的,显然不是很合理。作者通过K-means聚类算法,用IoU作为距离度量,生成了Anchor Box的尺度。   (4) 引入Multi-Scale的思想 ,YOLO v2去掉了全连接层,所以网络可以接受不同size的图片,训练过程中网络每隔10 batch随机选择不同的size的图片作为输入数据。 总结    YOLO v2在YOLO v1基础上,加入各种流行的技术,达到了非常好的效果。 来源: https://www.cnblogs.com/xin1998/p/11381355.html

论文分享:目标检测-YOLO

佐手、 提交于 2019-11-27 21:46:16
You Only Look Once: Unified, Real-Time Object Detection 论文地址 转自: http://haha-strong.com/ 算法思路 仿照人类视觉系统,只看一次图片就可以知道目标的类别以及位置。在实际测试时将图片人分成S*S的方格,对每个方格回归出两个边框以及相应的置信度,和20类类别。 motivation 目前的算法都是先提取候选区域在进行类别的判别和边框优化,不仅降低了整个算法运行时间们还容易导致后续边框优化时缺乏上下文信息而不够精确。 本文提出一种将二者合二为一的YOLO算法,通过卷积层提取特征,然后使用全连接层直接预测目标的位置以及类别信息。 做法 本文算法分为三个步骤: 首先将图片分成S*S个网络,如上图左边所示; 接着对每个网格回归出两个边框,以及他们的类别和置信度; 最后使用Soft-NMS除去重合的边框,得到最终的结果。 整个网络架构如下所示: 性能 由于没有特征再提取操作,所以整个算法的效率提升了不少,精度没有多少的损失。 下图是当时与最好算法性能的比较: 在实时性的目标检测算法中,本文提出的YOLO算法不仅在速度上有巨大的优势,而且精度上也比以往的提升了两倍。 与非实时性算法相比,本文提出的算法在损失较小的性能指标下,获得6X倍速度的提升。 Thoughts 本文算法首次将single

Darknet_yolov2综述入门整理

浪子不回头ぞ 提交于 2019-11-27 04:56:52
接着上次的神经网络,这次整理一下Darknet,yolov2 首先得先了解Darknet,是深度学习框架,总的来说深度学习框架提供了一些列的深度学习的组件(对于通用的算法,里面会有实现),当需要使用新的算法的时候就需要用户自己去定义,然后调用深度学习框架的函数接口使用用户自定义的新算法. 这篇讲述了 深度学习框架的定义 : https://blog.csdn.net/yeler082/article/details/78755095 Darknet的功能不如主流的tensorflow等框架那么强大,但是1.易于安装:在makefile里面选择自己需要的附加项(cuda,cudnn,opencv等)直接make即可,几分钟完成安装; 2.没有任何依赖项:整个框架都用C语言进行编写,可以不依赖任何库,连opencv作者都编写了可以对其进行替代的函数; 3.结构明晰,源代码查看、修改方便:其框架的基础文件都在src文件夹,而定义的一些检测、分类函数则在example文件夹,可根据需要直接对源代码进行查看和修改; 4.友好python接口:虽然darknet使用c语言进行编写,但是也提供了python的接口,通过python函数,能够使用python直接对训练好的.weight格式的模型进行调用; 5.易于移植:该框架部署到机器本地十分简单,且可以根据机器情况,使用cpu和gpu

基于深度学习的目标检测

馋奶兔 提交于 2019-11-26 23:17:37
普通的深度学习监督算法主要是用来做分类,如图1(1)所示,分类的目标是要识别出图中所示是一只猫。而在ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛以及实际的应用中,还包括目标定位和目标检测等任务。其中目标定位是不仅仅要识别出来是什么物体(即分类),而且还要预测物体的位置,位置一般用边框(bounding box)标记,如图1(2)所示。而目标检测实质是多目标的定位,即要在图片中定位多个目标物体,包括分类和定位。比如对图1(3)进行目标检测,得到的结果是好几只不同动物,他们的位置如图3中不同颜色的框所示。 (1)目标分类 (2)目标定位 (3)目标检测 图1 目标分类、定位、检测示例 简单来说,分类、定位和检测的区别如下: 分类:是什么? 定位:在哪里?是什么?(单个目标) 检测:在哪里?分别是什么?(多个目标) 目标检测对于人类来说并不困难,通过对图片中不同颜色模块的感知很容易定位并分类出其中目标物体,但对于计算机来说,面对的是RGB像素矩阵,很难从图像中直接得到狗和猫这样的抽象概念并定位其位置,再加上有时候多个物体和杂乱的背景混杂在一起,目标检测更加困难。但这难不倒科学家们,在传统视觉领域,目标检测就是一个非常热门的研究方向,一些特定目标的检测,比如人脸检测和行人检测已经有非常成熟的技术了

How can I download a specific part of Coco Dataset?

梦想与她 提交于 2019-11-26 21:57:47
问题 I am developing an object detection model to detect ships using YOLO. I want to use the COCO dataset. Is there a way to download only the images that have ships with the annotations? 回答1: From what I personally know, if you're talking about the COCO dataset only, I don't think they have a category for "ships". The closest category they have is "boat". Here's the link to check the available categories: http://cocodataset.org/#overview BTW, there are ships inside the boat category too. If you

YOLO---YOLOv3 with OpenCV 再使用

十年热恋 提交于 2019-11-26 16:32:54
YOLO---YOLOv3 with OpenCV 再使用 YOLOv3 with OpenCV官网 @ https://github.com/JackKoLing/opencv_deeplearning_practice/tree/master/pracice3_opencv_yolov3    下载并备齐: yolov3.weights权重文件、yolov3.cfg网络构建文件、coco.names、xxx.jpg、xxx.mp4文件、object_detection_yolo.cpp、object_detection_yolo.py等文件;    依赖环境: C++的编译环境(如G++/VScode)、OpenCV3.4.2+(记住安装目录)    编译情况: 下载源文件,无需复杂的编译,直接修改进行应用    支持: windows + linux + CPU + GPU(可适用于英特尔) 特点: (1)在OpenCV中使用YOLOv3, 可以在windows下+ ubuntu下使用。 (2)windows下,之前做,object_detection_yolo.cpp是在Visual Studio(VS)下编译的。 (3)ubuntu下,这次,object_detection_yolo.cpp是g++编译的。 (3)OpenCV的DNN,GPU仅使用英特尔的GPU进行测试