coco

目标检测算法-YOLO算法纵向对比理解

余生长醉 提交于 2020-08-11 14:23:42
目标检测算法-YOLO算法纵向对比理解 DeepLearning的目标检测任务主要有两大类:一段式,两段式 其中两段式主要包括RCNN、FastRCNN、FasterRCNN为代表, 一段式主要包括YOLO,SSD等算法 由于一段式直接在最后进行分类(判断所属类别)和回归(标记物体的位置框框),所以现在一段式大有发展。 YOLO v1 论文地址: You Only Look Once: Unified, Real-Time Object Detection YOLOv1是one-stage detector鼻祖、real-time detector鼻祖。 所谓one-stage,即不需额外一个stage来生成RP,而是直接分类回归出output: YOLOv1直接将整张图片分成 S×S的小格子区域,每个小格子区域生成 B个bbox(论文中B=2),每个bbox用来预测中心点落在该格的物体。但是每个格子生成的所有B个bbox共享一个分类score YOLOv1最后一层的输出是一个S×S×(B∗5+C) 的tensor 其中,S为每维的格子段数,B为每格生成的bbox数,C为前景类别数。 YOLO v1包括24个conv layer + 2 fc layer YOLOv1采用了山寨版的GoogleNet作为backbone,而不是VGG Net; 在第24层时

Detectron2 基准测试 | 十二

谁说胖子不能爱 提交于 2020-08-11 06:00:30
作者|facebookresearch 编译|Flin 来源|Github 基准测试 在这里,我们以一些其他流行的开源Mask R-CNN实现为基准,对Detectron2中Mask R-CNN的训练速度进行了基准测试。 设置 硬件:8个带有NVLink的NVIDIA V100。 软件: Python 3.7, CUDA 10.0, cuDNN 7.6.4, PyTorch 1.3.0 (链接( https://download.pytorch.org/whl/nightly/cu100/torch-1.3.0%2Bcu100-cp37-cp37m-linux_x86_64.whl )), TensorFlow 1.15.0rc2, Keras 2.2.5, MxNet 1.6.0b20190820. 模型:端到端R-50-FPN Mask-RCNN模型,使用与Detectron基线配置( https://github.com/facebookresearch/Detectron/blob/master/configs/12_2017_baselines/e2e_mask_rcnn_R-50-FPN_1x.yaml )相同的超参数 。 指标:我们使用100-500次迭代中的平均吞吐量来跳过GPU预热时间。请注意,对于R-CNN样式的模型,模型的吞吐量通常会在训练期间发生变化

【实验】fcos 遥感

ⅰ亾dé卋堺 提交于 2020-08-11 02:08:31
fcos 数据集 数据集:DOTA1.0_task2_split(fcos跑的是转成coco后的格式) 数据集所在位置:/home/flora/FCOS/datasets/dota 修改了/home/flora/FCOS/fcos_core/config/paths_catalog.py的coco数据集的路径 运行命令 用4张卡训练的 python -m torch.distributed.launch \ --nproc_per_node = 4 \ --master_port = $(( RANDOM + 10000 )) \ tools/train_net.py \ --config-file configs/fcos/fcos_imprv_R_50_FPN_1x.yaml \ DATALOADER.NUM_WORKERS 0 \ OUTPUT_DIR training_dir/fcos_imprv_R_50_FPN_1x DATALOADER.NUM_WORKERS设置成2不行,必须设成0. 训练时间 开始:2020/8/4 20:32 来源: oschina 链接: https://my.oschina.net/u/4267090/blog/4470111

【pytorch-ssd目标检测】训练自己创建的数据集

时光怂恿深爱的人放手 提交于 2020-08-11 00:15:21
制作类似pascal voc格式的目标检测数据集: https://www.cnblogs.com/xiximayou/p/12546061.html 代码来源:https://github.com/amdegroot/ssd.pytorch 拷贝下来的代码好多坑要踩。。。 我将其上传到谷歌colab上,当前目录结构如下: 需要说明的是,虽然我们只有2类,但是,要加上背景一类,所以总共我们有3类。 首先我们要读取自己的数据集 在config.py中 # config.py import os.path # gets home dir cross platform # HOME = os.path.expanduser("~") HOME = os.path.expanduser("/content/drive/My Drive/pytorch_ssd/") # for making bounding boxes pretty COLORS = ((255, 0, 0, 128), (0, 255, 0, 128), (0, 0, 255, 128 ), (0, 255, 255, 128), (255, 0, 255, 128), (255, 255, 0, 128 )) MEANS = (104, 117, 123 ) mask = { 'num_classes': 3, 'lr

In Defense of Grid Features for Visual Question Answering论文笔记

会有一股神秘感。 提交于 2020-08-10 18:24:46
Abstract 作为“自底向上”关注[2],基于边界框(或区域)的视觉特征最近已经超过了普通的基于网格的卷积特征,成为视觉和语言任务(如视觉问题回答(VQA))的事实标准。然而,还不清楚地区的区域(例如更好的定位)是否是自下而上注意力成功的关键原因。在这篇文章中,我们重新审视了VQA的网格特性,发现它们可以非常好地工作——以同样的精度运行速度快一个数量级以上(例如,如果以类似的方式预先训练)。通过大量的实验,我们验证了这一观察结果在不同的VQA模型(报告了vqa2.0测试标准72.71的最新精度)、数据集上都是正确的,并很好地推广到其他任务,如图像字幕。由于网格特性使模型设计和训练过程变得更加简单,这使我们能够对其进行端到端的培训,并且还可以使用更灵活的网络设计。我们学习了端到端的VQA模型,从像素直接到答案,并证明了在预训练中不使用任何区域注释就可以获得很好的性能。我们希望我们的发现有助于进一步提高对VQA的科学理解和实际应用。代码和功能将可用。 1. Introduction 目前主流的视觉特征是“bottom-up”特征,作者提出问题是什么导致“bottom-up”特征比传统的网格特征更好的,一种最可能的说法是更好地定位单个对象,因为区域是检测器直接输出的边界框。另一种答案说许多区域可以很容易地捕获图像中的粗级别信息和细粒度细节,即使区域间存在重叠。 但是作者的实验发现

【pytorch-ssd目标检测】训练自己创建的数据集

浪尽此生 提交于 2020-08-10 17:17:02
制作类似pascal voc格式的目标检测数据集: https://www.cnblogs.com/xiximayou/p/12546061.html 代码来源:https://github.com/amdegroot/ssd.pytorch 拷贝下来的代码好多坑要踩。。。 我将其上传到谷歌colab上,当前目录结构如下: 需要说明的是,虽然我们只有2类,但是,要加上背景一类,所以总共我们有3类。 首先我们要读取自己的数据集 在config.py中 # config.py import os.path # gets home dir cross platform # HOME = os.path.expanduser("~") HOME = os.path.expanduser("/content/drive/My Drive/pytorch_ssd/") # for making bounding boxes pretty COLORS = ((255, 0, 0, 128), (0, 255, 0, 128), (0, 0, 255, 128 ), (0, 255, 255, 128), (255, 0, 255, 128), (255, 255, 0, 128 )) MEANS = (104, 117, 123 ) mask = { 'num_classes': 3, 'lr

【pytorch-ssd目标检测】训练自己创建的数据集

百般思念 提交于 2020-08-10 09:30:04
制作类似pascal voc格式的目标检测数据集: https://www.cnblogs.com/xiximayou/p/12546061.html 代码来源:https://github.com/amdegroot/ssd.pytorch 拷贝下来的代码好多坑要踩。。。 我将其上传到谷歌colab上,当前目录结构如下: 需要说明的是,虽然我们只有2类,但是,要加上背景一类,所以总共我们有3类。 首先我们要读取自己的数据集 在config.py中 # config.py import os.path # gets home dir cross platform # HOME = os.path.expanduser("~") HOME = os.path.expanduser("/content/drive/My Drive/pytorch_ssd/") # for making bounding boxes pretty COLORS = ((255, 0, 0, 128), (0, 255, 0, 128), (0, 0, 255, 128 ), (0, 255, 255, 128), (255, 0, 255, 128), (255, 255, 0, 128 )) MEANS = (104, 117, 123 ) mask = { 'num_classes': 3, 'lr

Office2019、Office365自定义安装组件及转批量授权并激活的工具下载

风格不统一 提交于 2020-08-10 09:29:34
目录 1. 关键词 2. 免费申请office365 A1 和 a1p 带OneDrive 5T 网盘 office365学生版 3. office2019VOL版 3.1. 官方视频教程 3.2. 卸载旧版本Office 3.3. 下载Office Deployment Tool (ODT) 3.4. 创建/修改配置文件 3.5. 下载&安装 4. 激活 4.1. 为什么我安装的office无法使用批量激活 4.2. 工具下载 4.3. 工具使用说明 4.3.1. 激活 4.3.2. 转换 1. 关键词 Office2019 VOL版本 自定义安装组件、Office自定义安装仅Word、PPT、Excel。 Office激活以及无法使用批量授权激活的解决方案。 2. 免费申请office365 A1 和 a1p 带OneDrive 5T 网盘 office365学生版 参考: https://blog.csdn.net/COCO56/article/details/95715671 3. office2019VOL版 众所周知,Office VOL版本可以连接KMS服务器激活,但是office2019没有镜像可以下载,所以只能依靠Office Deployment Tool来进行操作。注:Office2019 Retail零售版有官方镜像可以下载。

faster RCNN中的anchor generator分析

风格不统一 提交于 2020-08-10 05:42:17
faster RCNN简介 faster rcnn属于两阶段目标检测,所谓两阶段目标检测,指的就是对检测框做两次边框回归,首先使用RPN网络,生成anchor,挑选出positive anchors,并对这些anchor进行第一次回归,再经过nms,得到初步的proposal;在RCNN阶段,对于这些proposal,提取对应区域的feature map,并使用RoiAlign或者RoiPooling等方法,将这些proposal变成统一的大小(否则之后没法接FC等层了),经过各种卷积或者fc操作之后,对proposal进行再一次地回归。整个过程回归了2次边框,因此是两阶段的目标检测。 关于faster rcnn更加具体的解释可以参考这篇知乎文章: https://zhuanlan.zhihu.com/p/31426458 ancho generator分析 训练时,在RPN中,使用anchor generation的方法生成anchor,但是在这个过程中,由于生成了大量的anchor,因此会有非常严重的正负样本不均衡的问题,怎样保证生成anchor与gt bbox有尽可能大的IOU,其实是非常重要的问题,在FPN中,短边800训练时,常规的RP配置如下。 FPNRPNHead: anchor_generator: anchor_sizes: [32, 64, 128, 256,

做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点

走远了吗. 提交于 2020-08-10 02:20:51
   CVPR 2020 会议上,有哪些目标检测论文值得关注?   目标检测是计算机视觉中的经典问题之一。凭借大量可用数据、更快的 GPU 和更好的算法,现在我们可以轻松训练计算机以高精度检测出图像中的多个对象。   前不久结束的 CVPR 2020 会议在推动目标检测领域发展方面做出了一些贡献,本文就为大家推荐其中 6 篇有价值的目标检测论文。       论文清单   A Hierarchical Graph Network for 3D Object Detection on Point Clouds   HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection   Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud   Camouflaged Object Detection   Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector   D2Det: Towards High-Quality Object Detection and Instance Segmentation    1. A Hierarchical