coco | 易学教程

CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽、交互到共生

阅读更多关于 CVPR 2020 | 京东AI研究院对视觉与语言的思考：从自洽、交互到共生

【今日推荐】：为什么一到面试就懵逼！>>> 纵观视觉与语言在这六年间的飞速发展史，它就仿佛是两种不同文化（计算机视觉与自然语言处理）的碰撞与交融。这里每一种文化最初的进化都是自洽的，即独立地演化形成一套完备的视觉理解或语言建模体系；演化至今，我们当前所迎来的则是两种文化间的交互，自此视觉理解和语言建模不再是简单串联的两个模块，而是通过互相的信息传递成为共同促进的一个整体；对于视觉与语言的未来，则一定是聚焦于两者更为本质和紧密的共生，它所渴望的，将是挣脱开数据标注的桎梏，在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系，并以之为起源，如「道生一，一生二，二生三，三生万物」一般，赋予模型在各种视觉与语言任务上的生命力。 This monkey on the back of horse Disney made the best cake of all time using projection Tiny squid flopping around on the rocky bottom of fish tank 注：为了更好地便于读者理解和推动视觉语言领域的发展，将这几年我们关于视觉与语言的代表性工作（LSTM-A [1]，GCN-LSTM [2]，HIP [3]，X-LAN [4]）进行开源，这些对应的源码都在 GitHub 上陆续公开（ https://

使用mask scoring RCNN训练自己的数据集

阅读更多关于使用mask scoring RCNN训练自己的数据集

本文主要参考下面两篇博文，并在部分细节处做了修改。 https://blog.csdn.net/XX_123_1_RJ/article/details/102733175?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task https://blog.csdn.net/linolzhang/article/details/97833354 一、数据集准备（训练集验证集测试集的数据分别准备） 1、标注数据集大多数人会用labelme来标注数据集，然后用labelme将每张标注图片都生成一个json文件。labelme教程网上很多，这里不再赘述。本人由于原图的标注目标很小，用labelme标注未免不精确，所以先用PS手动标注后再写代码把标注图转换成了labelme格式的json文件。结果如图： 2、将这些json文件转换成coco格式这一步我使用如下代码可成功转换。 # -*- coding:utf-8 -*- import os, sys import argparse import json import matplotlib.pyplot as plt import skimage.io as io from labelme

使用mask scoring RCNN训练自己的数据集

阅读更多关于使用mask scoring RCNN训练自己的数据集

【目标分类_长尾分布问题】BBN:Bilateral-Branch Network _ CVPR2020

阅读更多关于【目标分类_长尾分布问题】BBN:Bilateral-Branch Network _ CVPR2020

文章目录一、视觉任务数据的特征二、现有文献是怎么解决这类问题的二、本文做法三、方法四、实验结果论文路径： http://www.weixiushen.com/publication/cvpr20_BBN.pdf 代码路径： https://github.com/Megvii-Nanjing/BBN 一、视觉任务数据的特征机器视觉的代表数据集有很多，如 ImageNet ILSVRC 2012, MS COCO, Places Database等。这些数据集中的数据量是大致均匀分布的，但实际中，存在大量的长尾分布数据，也就是少数类别有大部分数据，而多数类别只有小部分数据，如图1所示。这样的数据分布会使得网络嫩姨获得良好的识别效果，原因有两个：其一是 data-hungry limitation of models 其二是长尾分布数据的极端不平衡问题。二、现有文献是怎么解决这类问题的现有的文献中，常用的解决这种极度不平衡的方法是： class re-balancing 策略，比如 re-weighting 或 re-sampling。正面作用：能够调整网络的训练，通过在小批量内对样本重新取样或对样本损失重新加权，期望更接近于测试的分布，因此，类别的 re-balancing 可以直接影响深层网络分类器权重的更新，从而促进分类器的学习。负面作用： re

Facing the below error when trying to run Tensorflow Object Detection api

阅读更多关于 Facing the below error when trying to run Tensorflow Object Detection api

问题 Facing the below error when trying to run Tensorflow Object Detection api TypeError Traceback (most recent call last) <ipython-input-10-333ebdc7ae83> in <module> 1 model_name = 'ssd_mobilenet_v1_coco_2017_11_17' ----> 2 detection_model = load_model(model_name) <ipython-input-4-f8a3c92a04a4> in load_model(model_name) 9 model_dir = pathlib.Path(model_dir)/"saved_model" 10 ---> 11 model = tf.saved_model.load(str(model_dir)) 12 model = model.signatures['serving_default'] 13 ~\Anaconda3\lib\site

百度云智峰会Workshop技术干货第1弹 ——文本目标检测实验介绍

阅读更多关于百度云智峰会Workshop技术干货第1弹 ——文本目标检测实验介绍

本文作者：HelloDeveloper 8 月29日下午，在热烈的气氛中，2019百度云智峰会在北京顺利举办。活动现场，百度开发者中心联手百度云智学院，为开发者及学生们，提供了展示自己的舞台，输出百度沉淀的优质技术。百度开发者中心（developer.baidu.com）专注于为开发者打造一个有温度的技术交流社区，一直伴随着中国开发者的成长，通过分享知识、交流。自成立以来，坚持为广大开发者提供优质服务。百度云智学院（abcxueyuan.baidu.com）作为百度对外知识赋能的平台，依托百度ABC战略，整合内外部优质教育培训资源，定义满足产业需求的人才标准和培训体系，以“AI引领未来，茁壮科技人才”为使命，致力于为ABC时代的人才培养、技术分享等问题提供全新的解决思路。为了帮助大家更好地理解Workshop中亮相的6大技术，我们特将技术内容进行梳理总结，出品6篇技术干货文章，在近期于百度开发者中心公众号（ID:baidudev）上逐一分享给大家，请大家持续关注。以下是第一期内容《文本目标检测实验介绍》。 BML平台简介 BML是一款企业级的机器学习平台，提供一站式人工智能建模与推理预测服务。面向用户提供机器学习和深度学习服务能力，实现从数据集管理、数据预处理、数据源、模型训练，到模型管理、预测服务、服务监控等全AI工作周期的管理。平台提供交互式、拖拽式、任务式等多种建模方式

归一化激活层的进化：谷歌Quoc Le等人利用AutoML 技术发现新型ML模块

阅读更多关于归一化激活层的进化：谷歌Quoc Le等人利用AutoML 技术发现新型ML模块

最近，谷歌大脑团队和 DeepMind 合作发布了一篇论文，利用 AutoML 技术实现了归一化激活层的进化，找出了 BatchNorm-ReLU 的替代方案 EvoNorms，在 ImageNet 上获得 77.8% 的准确率，超越 BN-ReLU（76.1%）。选自arXiv，作者：Hanxiao Liu，等机器之心编译，机器之心编辑部。论文地址： https:// arxiv.org/abs/2004.0296 7 视频： https:// youtu.be/RFn5eH5ZCVo 批归一化和激活函数是深度神经网络的重要组成部分，二者的位置常常重合。以往的神经网络设计中通常对二者分别进行设计，而最近谷歌大脑和 DeepMind 研究人员合作提出了一种新方案：将二者统一为一个计算图，从低级原语开始进行结构进化。研究者利用层搜索算法发现了一组全新的归一化-激活层 EvoNorms 。这些层中的一部分独立于批统计量（batch statistics）。实验证明，EvoNorms 不仅在包括 ResNets、MobileNets 和 EfficientNets 在内的多个图像分类模型上效果显著，它还能很好地迁移到 Mask R-CNN 模型（进行实例分割）和 BigGAN（用于图像合成）。在多种情况下，EvoNorms 的性能显著优于基于 BatchNorm 和

车牌识别-Mask_RCNN定位车牌+手写方法分割字符+CNN单个字符识别

阅读更多关于车牌识别-Mask_RCNN定位车牌+手写方法分割字符+CNN单个字符识别

simple-car-plate-recognition 简单车牌识别-Mask_RCNN定位车牌+手写方法分割字符+CNN单个字符识别数据准备准备用于车牌定位的数据集，要收集250张车辆图片，200张用于训练，50张用于测试，然后在这些图片上标注出车牌区域。这里有图片 https://gitee.com/easypr/EasyPR/tree/master/resources/image/general_test 。标注工具使用VGG Image Annotator (VIA)，就是一个网页程序，可以导入图片，使用多边形标注，标注好了以后，导出json。我已经标注好的数据集可以从这里下载 https://github.com/airxiechao/simple-car-plate-recognition/blob/master/dataset/carplate.zip ，用7zip解压。准备用于字符识别的数据集，包含分隔好的单个车牌汉子、字母和数字。这里有 https://gitee.com/easypr/EasyPR/blob/master/resources/train/ann.7z 。训练Mask-RCNN定位车牌这篇文章 https://engineering.matterport.com/splash-of-color-instance-segmentation

【pytorch-ssd目标检测】训练自己创建的数据集

阅读更多关于【pytorch-ssd目标检测】训练自己创建的数据集

制作类似pascal voc格式的目标检测数据集： https://www.cnblogs.com/xiximayou/p/12546061.html 代码来源：https://github.com/amdegroot/ssd.pytorch 拷贝下来的代码好多坑要踩。。。我将其上传到谷歌colab上，当前目录结构如下：需要说明的是，虽然我们只有2类，但是，要加上背景一类，所以总共我们有3类。首先我们要读取自己的数据集在config.py中 # config.py import os.path # gets home dir cross platform # HOME = os.path.expanduser("~") HOME = os.path.expanduser("/content/drive/My Drive/pytorch_ssd/") # for making bounding boxes pretty COLORS = ((255, 0, 0, 128), (0, 255, 0, 128), (0, 0, 255, 128 ), (0, 255, 255, 128), (255, 0, 255, 128), (255, 255, 0, 128 )) MEANS = (104, 117, 123 ) mask = { 'num_classes': 3, 'lr

ThunderNet ：像闪电一样，旷视再出超轻量级检测器，高达267fps | ICCV 2019

阅读更多关于 ThunderNet ：像闪电一样，旷视再出超轻量级检测器，高达267fps | ICCV 2019

> 论文提出了实时的超轻量级two-stage detector ThunderNet，靠着精心设计的主干网络以及提高特征表达能力的CEM和SAM模块，使用很少的计算量就能超越目前的one-stage detectors，在ARM平台也达到了实时性，GPU的速度更是达到267fps 来源：【晓飞的算法工程笔记】公众号论文: ThunderNet: Towards Real-time Generic Object Detection 论文地址： https://arxiv.org/abs/1903.11752 Introduction one-stage detector和two-stage detector分别有着实时优势和准确率优势。two-stage detector实时性较差，几乎不能在移动设备上运行，尽管已经有了light-head版本，但对于小主干网络而言，这依然是过度设计的。而one-stage由于缺少ROI-wise的特征提取，准确率一直较差为此，论文提出TunderNet，一个超轻量级的two-stage detector。在综合考虑输入分辨率，主干网络和detection head后，整体架构如图2，主要有两部分创新： Backbone part，提出轻量级主干网络SNet Detection part，参考Light-Head R-CNN的设计

订阅 coco