coco

CVPR 2020 | 京东AI研究院对视觉与语言的思考:从自洽、交互到共生

六眼飞鱼酱① 提交于 2020-04-13 20:10:41
【今日推荐】:为什么一到面试就懵逼!>>> 纵观视觉与语言在这六年间的飞速发展史,它就仿佛是两种不同文化(计算机视觉与自然语言处理)的碰撞与交融。这里每一种文化最初的进化都是 自洽 的,即独立地演化形成一套完备的视觉理解或语言建模体系;演化至今,我们当前所迎来的则是两种文化间的 交互 ,自此视觉理解和语言建模不再是简单串联的两个模块,而是通过互相的信息传递成为共同促进的一个整体;对于视觉与语言的未来,则一定是聚焦于两者更为本质和紧密的 共生 ,它所渴望的,将是挣脱开数据标注的桎梏,在海量的弱监督甚至于无监督数据上找寻两者间最为本质的联系,并以之为起源,如「道生一,一生二,二生三,三生万物」一般,赋予模型在各种视觉与语言任务上的生命力。 This monkey on the back of horse Disney made the best cake of all time using projection Tiny squid flopping around on the rocky bottom of fish tank 注:为了更好地便于读者理解和推动视觉语言领域的发展,将这几年我们关于视觉与语言的代表性工作(LSTM-A [1],GCN-LSTM [2],HIP [3],X-LAN [4])进行开源,这些对应的源码都在 GitHub 上陆续公开( https://

使用mask scoring RCNN训练自己的数据集

半腔热情 提交于 2020-04-12 17:22:22
本文主要参考下面两篇博文,并在部分细节处做了修改。 https://blog.csdn.net/XX_123_1_RJ/article/details/102733175?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task https://blog.csdn.net/linolzhang/article/details/97833354 一、数据集准备 (训练集验证集测试集的数据分别准备) 1、标注数据集 大多数人会用labelme来标注数据集,然后用labelme将每张标注图片都生成一个json文件。labelme教程网上很多,这里不再赘述。 本人由于原图的标注目标很小,用labelme标注未免不精确,所以先用PS手动标注后再写代码把标注图转换成了labelme格式的json文件。 结果如图: 2、将这些json文件转换成coco格式 这一步我使用如下代码可成功转换。 # -*- coding:utf-8 -*- import os, sys import argparse import json import matplotlib.pyplot as plt import skimage.io as io from labelme

使用mask scoring RCNN训练自己的数据集

。_饼干妹妹 提交于 2020-04-12 17:07:45
本文主要参考下面两篇博文,并在部分细节处做了修改。 https://blog.csdn.net/XX_123_1_RJ/article/details/102733175?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task https://blog.csdn.net/linolzhang/article/details/97833354 一、数据集准备 (训练集验证集测试集的数据分别准备) 1、标注数据集 大多数人会用labelme来标注数据集,然后用labelme将每张标注图片都生成一个json文件。labelme教程网上很多,这里不再赘述。 本人由于原图的标注目标很小,用labelme标注未免不精确,所以先用PS手动标注后再写代码把标注图转换成了labelme格式的json文件。 结果如图: 2、将这些json文件转换成coco格式 这一步我使用如下代码可成功转换。 # -*- coding:utf-8 -*- import os, sys import argparse import json import matplotlib.pyplot as plt import skimage.io as io from labelme

【目标分类_长尾分布问题】BBN:Bilateral-Branch Network _ CVPR2020

六眼飞鱼酱① 提交于 2020-04-12 17:03:43
文章目录 一、视觉任务数据的特征 二、现有文献是怎么解决这类问题的 二、本文做法 三、方法 四、实验结果 论文路径: http://www.weixiushen.com/publication/cvpr20_BBN.pdf 代码路径: https://github.com/Megvii-Nanjing/BBN 一、视觉任务数据的特征 机器视觉的代表数据集有很多,如 ImageNet ILSVRC 2012, MS COCO, Places Database等。这些数据集中的数据量是大致均匀分布的,但实际中,存在大量的长尾分布数据,也就是少数类别有大部分数据,而多数类别只有小部分数据,如图1所示。 这样的数据分布会使得网络嫩姨获得良好的识别效果,原因有两个: 其一是 data-hungry limitation of models 其二是长尾分布数据的极端不平衡问题。 二、现有文献是怎么解决这类问题的 现有的文献中,常用的解决这种极度不平衡的方法是: class re-balancing 策略,比如 re-weighting 或 re-sampling。 正面作用: 能够调整网络的训练,通过在小批量内对样本重新取样或对样本损失重新加权,期望更接近于测试的分布,因此,类别的 re-balancing 可以直接影响深层网络分类器权重的更新,从而促进分类器的学习。 负面作用: re

Facing the below error when trying to run Tensorflow Object Detection api

社会主义新天地 提交于 2020-04-12 07:25:52
问题 Facing the below error when trying to run Tensorflow Object Detection api TypeError Traceback (most recent call last) <ipython-input-10-333ebdc7ae83> in <module> 1 model_name = 'ssd_mobilenet_v1_coco_2017_11_17' ----> 2 detection_model = load_model(model_name) <ipython-input-4-f8a3c92a04a4> in load_model(model_name) 9 model_dir = pathlib.Path(model_dir)/"saved_model" 10 ---> 11 model = tf.saved_model.load(str(model_dir)) 12 model = model.signatures['serving_default'] 13 ~\Anaconda3\lib\site

百度云智峰会Workshop技术干货第1弹 ——文本目标检测实验介绍

大憨熊 提交于 2020-04-12 02:27:03
本文作者:HelloDeveloper 8 月29日下午,在热烈的气氛中,2019百度云智峰会在北京顺利举办。活动现场,百度开发者中心联手百度云智学院,为开发者及学生们,提供了展示自己的舞台,输出百度沉淀的优质技术。百度开发者中心(developer.baidu.com)专注于为开发者打造一个有温度的技术交流社区,一直伴随着中国开发者的成长,通过分享知识、交流。自成立以来,坚持为广大开发者提供优质服务。百度云智学院(abcxueyuan.baidu.com)作为百度对外知识赋能的平台,依托百度ABC战略,整合内外部优质教育培训资源,定义满足产业需求的人才标准和培训体系,以“AI引领未来,茁壮科技人才”为使命,致力于为ABC时代的人才培养、技术分享等问题提供全新的解决思路。 为了帮助大家更好地理解Workshop中亮相的6大技术,我们特将技术内容进行梳理总结,出品6篇技术干货文章,在近期于百度开发者中心公众号(ID:baidudev)上逐一分享给大家,请大家持续关注。以下是第一期内容《文本目标检测实验介绍》。 BML平台简介 BML是一款企业级的机器学习平台,提供一站式人工智能建模与推理预测服务。面向用户提供机器学习和深度学习服务能力,实现从数据集管理、数据预处理、数据源、模型训练,到模型管理、预测服务、服务监控等全AI工作周期的管理。平台提供交互式、拖拽式、任务式 等多种建模方式

归一化激活层的进化:谷歌Quoc Le等人利用AutoML 技术发现新型ML模块

扶醉桌前 提交于 2020-04-10 15:17:14
最近,谷歌大脑团队和 DeepMind 合作发布了一篇论文,利用 AutoML 技术实现了归一化激活层的进化,找出了 BatchNorm-ReLU 的替代方案 EvoNorms,在 ImageNet 上获得 77.8% 的准确率,超越 BN-ReLU(76.1%)。 选自arXiv,作者:Hanxiao Liu,等机器之心编译,机器之心编辑部。 论文地址: https:// arxiv.org/abs/2004.0296 7 视频: https:// youtu.be/RFn5eH5ZCVo 批归一化和激活函数是深度神经网络的重要组成部分,二者的位置常常重合。以往的神经网络设计中通常对二者分别进行设计,而最近谷歌大脑和 DeepMind 研究人员合作提出了一种新方案: 将二者统一为一个计算图,从低级原语开始进行结构进化。研究者利用层搜索算法发现了一组全新的归一化-激活层 EvoNorms 。这些层中的一部分独立于批统计量(batch statistics)。 实验证明,EvoNorms 不仅在包括 ResNets、MobileNets 和 EfficientNets 在内的多个图像分类模型上效果显著,它还能很好地迁移到 Mask R-CNN 模型(进行实例分割)和 BigGAN(用于图像合成)。在多种情况下,EvoNorms 的性能显著优于基于 BatchNorm 和

车牌识别-Mask_RCNN定位车牌+手写方法分割字符+CNN单个字符识别

北战南征 提交于 2020-04-09 19:47:03
simple-car-plate-recognition 简单车牌识别-Mask_RCNN定位车牌+手写方法分割字符+CNN单个字符识别 数据准备 准备用于车牌定位的数据集,要收集250张车辆图片,200张用于训练,50张用于测试,然后在这些图片上标注出车牌区域。这里有图片 https://gitee.com/easypr/EasyPR/tree/master/resources/image/general_test 。标注工具使用VGG Image Annotator (VIA),就是一个网页程序,可以导入图片,使用多边形标注,标注好了以后,导出json。我已经标注好的数据集可以从这里下载 https://github.com/airxiechao/simple-car-plate-recognition/blob/master/dataset/carplate.zip ,用7zip解压。 准备用于字符识别的数据集,包含分隔好的单个车牌汉子、字母和数字。这里有 https://gitee.com/easypr/EasyPR/blob/master/resources/train/ann.7z 。 训练Mask-RCNN定位车牌 这篇文章 https://engineering.matterport.com/splash-of-color-instance-segmentation

【pytorch-ssd目标检测】训练自己创建的数据集

我的梦境 提交于 2020-04-06 13:25:50
制作类似pascal voc格式的目标检测数据集: https://www.cnblogs.com/xiximayou/p/12546061.html 代码来源:https://github.com/amdegroot/ssd.pytorch 拷贝下来的代码好多坑要踩。。。 我将其上传到谷歌colab上,当前目录结构如下: 需要说明的是,虽然我们只有2类,但是,要加上背景一类,所以总共我们有3类。 首先我们要读取自己的数据集 在config.py中 # config.py import os.path # gets home dir cross platform # HOME = os.path.expanduser("~") HOME = os.path.expanduser("/content/drive/My Drive/pytorch_ssd/") # for making bounding boxes pretty COLORS = ((255, 0, 0, 128), (0, 255, 0, 128), (0, 0, 255, 128 ), (0, 255, 255, 128), (255, 0, 255, 128), (255, 255, 0, 128 )) MEANS = (104, 117, 123 ) mask = { 'num_classes': 3, 'lr

ThunderNet :像闪电一样,旷视再出超轻量级检测器,高达267fps | ICCV 2019

血红的双手。 提交于 2020-04-05 17:50:49
> 论文提出了实时的超轻量级two-stage detector ThunderNet,靠着精心设计的主干网络以及提高特征表达能力的CEM和SAM模块,使用很少的计算量就能超越目前的one-stage detectors,在ARM平台也达到了实时性,GPU的速度更是达到267fps   来源:【晓飞的算法工程笔记】 公众号 论文: ThunderNet: Towards Real-time Generic Object Detection 论文地址: https://arxiv.org/abs/1903.11752 Introduction   one-stage detector和two-stage detector分别有着实时优势和准确率优势。two-stage detector实时性较差,几乎不能在移动设备上运行,尽管已经有了light-head版本,但对于小主干网络而言,这依然是过度设计的。而one-stage由于缺少ROI-wise的特征提取,准确率一直较差   为此,论文提出TunderNet,一个超轻量级的two-stage detector。在综合考虑输入分辨率,主干网络和detection head后,整体架构如图2,主要有两部分创新: Backbone part,提出轻量级主干网络SNet Detection part,参考Light-Head R-CNN的设计