计算机视觉

20年的目标检测大综述(第2期)

☆樱花仙子☆ 提交于 2020-03-23 18:40:03
3 月,跳不动了?>>> 今天我们接着上次综述章节1继续来大家来说说,本次主要说说20年内的目标检测,感谢大家的关注与支持。 OBJECT DETECTION IN 20 YEARS 我们将从多个方面回顾对象检测的历史,包括里程碑检测器、目标检测数据集、指标和关键技术的发展。在过去的二十年中,人们普遍认为,目标检测的发展大致经历了两个历史时期:“ 传统的目标检测时期 ” ( 14年以前 ) 和 “ 基于深度学习的检测时期 ” ( 2014年以后 ),如下图所示。 01 . 传统检测器 如果我们把今天的物体检测看作是深度学习力量下的一种技术美学,那么回到20年前,我们将见证“冷兵器时代的智慧”。早期的目标检测算法大多是基于手工特征构建的。由于当时缺乏有效的图像表示,人们别无选择,只能设计复杂的特征表示,以及各种加速技术来用尽有限的计算资源。 (1)Viola Jones Detectors 18年前,P. Viola和M. Jones在没有任何约束条件(如肤色分割)的情况下首次实现了人脸的实时检测。在700MHz Pentium III CPU上,在同等的检测精度下,检测器的速度是其他算法的数十倍甚至数百倍。这种检测算法,后来被称为“维奥拉-琼斯”(VJ)检测器”,在此以作者的名字命名,以纪念他们的重大贡献。 VJ检测器采用最直接的检测方法,即,滑动窗口

2019年图灵奖,颁给了图形学的传承

时光怂恿深爱的人放手 提交于 2020-03-23 17:23:41
3 月,跳不动了?>>> 3月18日,国际计算机学会(ACM)公布,计算机图形学奠基者Patrick M. Hanrahan和 Edwin Catmull 共同获2019年图灵奖。 ACM 提到,图灵奖颁给这两位,以表彰他们对3D计算机图形学的贡献,以及对电影制作和计算机生成图像等应用的革命性影响。1988年图灵奖颁给计算机图形学之父 Sutherland,2019年 Sutherland 的学生 Catmull 加入图灵奖获得者行列。 时隔三十二年,图形学作为一个学科第二次获奖,某种意义上是给予图形学传承的一个肯定。从Sutherland起源,到今天Pat 和 Ed 获得贡献奖,也无疑给整个图形学社区带来了莫大的精神鼓舞,毕竟作为一个要求码力超强,理论扎实的学科并没有像计算机视觉一样容易入门。 图形学的骄傲:Pat 与 Ed Edwin Catmull,是著名计算机科学家,皮克斯动画工作室联合创始人、前总裁,曾参与创办了现代视觉特效的起源地 NYIT 计算机图形实验室。因为其技术,Catmull曾先后 9 次获得奥斯卡金奖,影视圈莫不熟知。 Patrick Hanrahan 目前担任斯坦福大学计算机图形学实验室教授,但曾也是皮克斯动画工作室创始员工之一。 25年前《玩具总动员》家喻户晓,其背后的皮克斯动画工作室也正风生水起,那时候Catmull 和

计算机视觉(3):用inception-v3模型重新训练自己的数据模型

对着背影说爱祢 提交于 2020-03-23 16:19:54
用inception-v3重新训练自己的数据模型 背景: 现代的图像识别模型具有数以百万计的参数,从头开始训练(Train from scratch)需要大量的样本数据以及消耗巨大的计算资源(几百个GPU),因此采用迁移学习的方式重训一个模型(Retrain a model)对于学习模型的成本较低, 利用Inception-V3作为已经训练好的模型,来实现自己的图像分类识别 。 inception模型文件目录介绍: data目录:需要训练的数据放在该目录: inception_model:把下载inception模型放在该目录下: test_images:把训练完成之后,测试图片所放目录 数据准备完成之后,按以下步骤执行: 步骤1: windows: 运行批处理文件retrain.bat python retrain.py ^ --bottleneck_dir bottleneck ^ #自行生成每个训练图片的数据 --how_many_training_steps 200 ^ #步数 --model_dir inception_model ^ #模型 --output_graph output_graph.pb ^ #训练后输出模型 --output_labels output_labels.txt ^ #训练后输出label --image_dir data pause

计算机视觉(1)关于cvThreshold二值化函数

爱⌒轻易说出口 提交于 2020-03-23 09:54:06
计算机视觉(1)关于cvThreshold二值化函数 opencv中文说明中是这样说的: Threshold 对数组元素进行固定阈值操作 void cvThreshold( const CvArr* src, CvArr* dst, double threshold, double max_value, int threshold_type ); src:原始 数组 (单通道 , 8-bit of 32-bit 浮点数)。 dst:输出数组,必须与 src 的类型一致,或者为 8-bit。 threshold:阈值 max_value:使用 CV_THRESH_BINARY 和 CV_THRESH_BINARY_INV 的最大值。 threshold_type:阈值类型 threshold_type=CV_THRESH_BINARY:如果 src(x,y)>threshold ,dst(x,y) = max_value; 否则,dst(x,y)=0; threshold_type=CV_THRESH_BINARY_INV:如果 src(x,y)>threshold,dst(x,y) = 0; 否则,dst(x,y) = max_value. threshold_type=CV_THRESH_TRUNC:如果 src(x,y)>threshold,dst(x,y) = max

arXiv每日推荐-3.14:计算机视觉/图像处理每日论文速递

前提是你 提交于 2020-03-17 05:52:44
同步公众号(arXiv每日学术速递) [检测分类相关]: 【1】 SynCGAN: Using learnable class specific priors to generate synthetic data for improving classifier performance on cytological images SynCGAN:使用可学习的类特定先验来生成合成数据,以提高分类器在细胞学图像上的性能 作者: Soumyajyoti Dey, Nibaran Das 链接: https://arxiv.org/abs/2003.05712 【2】 EDC3: Ensemble of Deep-Classifiers using Class-specific Copula functions to Improve Semantic Image Segmentation EDC3:使用类特定Copula函数改进语义图像分割的深度分类器集成 作者: Somenath Kuiry, Mita Nasipuri 链接: https://arxiv.org/abs/2003.05710 【3】 ARAE: Adversarially Robust Training of Autoencoders Improves Novelty Detection ARAE

揭秘“图像识别”的工作原理

时光怂恿深爱的人放手 提交于 2020-03-10 16:25:23
对人类来说,描述我们眼睛所看到的事物,即“视觉世界”,看起来太微不足道了,以至于我们根本没有意识到那正是我们时时刻刻在做的事情。在看到某件事物时,不管是汽车、大树,还是一个人,我们通常都不需要过多的思考就能立刻叫出名字。然而对于一台计算机来说,区分识别“人类对象”(比如:在小狗、椅子或是闹钟这些“非人类对象”中识别出奶奶这一“人类对象”)却是相当困难的。 能解决这一问题可以带来非常高的收益。“图像识别”技术,更宽泛地说是“计算机视觉”技术,是许多新兴技术的基础。从无人驾驶汽车和面部识别软件到那些看似简单但十分重要的发展成果——能够监测流水线缺陷和违规的“智能工厂”,以及保险公司用来处理和分类索赔照片的自动化软件。这些新兴科技是离不开“图像识别”的。 在接下来的内容里,我们将要探究“图像识别”所面临的问题和挑战,并分析科学家是如何用一种特殊的神经网络来解决这一挑战的。 学会“看”是一项高难度、高成本的任务 着手解决这个难题,我们可以首先将元数据应用于非结构化数据。在之前的文章里,我们曾描述过在元数据稀缺或元数据不存在的情况下,进行文本内容分类和搜索遇到的一些问题和挑战。让专人来对电影和音乐进行人工分类和标记,确实是一项艰巨的任务。但有些任务不仅艰巨,甚至是几乎不可能完成的。比如训练无人驾驶汽车里的导航系统,让其能够将其他车辆与正在过马路的行人区分开来

阿里云视觉智能API,核心技术一站共享!

拈花ヽ惹草 提交于 2020-03-09 15:56:42
随着人工智能的技术不断成熟,AI技术已应用到了社会的各行各业,尤其是计算机视觉技术应用更为广泛,计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学,计算机视觉智能技术试图创建能够从图像视频或者多维数据中获取“信息和知识”的人工智能系统。作为AI技术的主要组成部分,计算机视觉(图像、视频、3D图形)智能技术近年来随着深度学习、大规模数据处理能力及云基础设施的迅猛发展,逐步应用到各行各业中,发挥了越来越大的作用。 背景:阿里巴巴集团内的视觉智能基石 视觉智能技术相比其它AI类技术(语音语言等),功能流派更多,场景也更复杂 。整个阿里巴巴经济体围绕着自身大量业务场景(电商零售、金融物流、文娱营销、企业服务等多个行业)的应用需求,应用了大量的视觉智能技术作为产品和解决方案的基石,这些产品有些在今天已经被社会所熟知,如天猫,淘宝,支付宝,1688等。 这些视觉类技术方案、产品或能力中,除了场景内部的业务属性技术外,起到核心且基础作用的,是数量众多、功能各异的,以API形式服务于上层的视觉原子能力(或能力组件)。这些原子能力,有些是通用的,但大部分是面向场景的。在服务模式上,为了体现规模化、多样性的优势,以及追求接入、发现和运行的低成本,需要有一种统一的平台和服务方式,让这些大厦的基石走出阿里,去服务更广泛的用户和开发者群体,发挥更大的价值。 全栈式视觉智能

计算机视觉初学笔记:环境搭建

天涯浪子 提交于 2020-03-09 05:01:34
前言 首先要理解一些概念:opencv opencl opengl openmp cuda 这里我们要opencv、opencl、openmp、cuda的环境配置 电脑配置:win10,显卡NVIDIA10.0,VS2019 1、opencv环境配置 1)网上下载opencv-4.2.0,在电脑上选好目录安装。比如我安装在 E:\Program\opencv\opencv 2)进行环境变量的配置,如我上面的目录对应在path中新建 E:\Program\opencv\opencv\build\x64\vc15\bin 3)当在vs上敲代码是需要用到 opencv相关的函数或者接口时,进行vs环境设置:   右键--属性,   C/C++ --附加包含目录 -- E:\Program\opencv\opencv\build\include E:\Program\opencv\opencv\build\include\opencv2   链接器--常规--附加库目录-- E:\Program\opencv\opencv\build\x64\vc15\lib   链接器--输入--附加依赖项-- opencv_**420d.lib (这里**写涉及到需要用的opencv的库) 2、opencl环境配置 1)下载 AMD-APP-SDK-v2.9-Windows-64,记下安装的位置

【计算机视觉03】SIFT特征提取与检索

回眸只為那壹抹淺笑 提交于 2020-03-09 00:35:42
本文参考博客:https://blog.csdn.net/fangjian1204/article/details/10522455 文章目录 一、建立高斯差分金字塔 1.基本概念 2.构建高斯金字塔 3.构建Dog金字塔 二、关键点位置确定 1.基本概念 2.DoG局部极值点 3.去除边缘响应 三、关键点方向分配 四、关键点描述 五、匹配 5.1 数据集 5.2 图片的SIFT特征提取 5.3 计算两张图片SIFT特征匹配结果 5.4 检索匹配 六、实验总结 -错误分析 -算法分析 一、建立高斯差分金字塔 1.基本概念 高斯金字塔里有两个概念:组(Octave)和层(Level); 不同大小的图片是组;同样大小的图片,在内部是层; 在同一组内,不同层图像的尺寸是一样的; 2.构建高斯金字塔 高斯金字塔每层中的多幅图像,是通过对同一幅输入图像进行不同尺度的高斯卷积得来的。 高斯金字塔的组数为: 计算高斯模糊的系数σ: σ 为尺度空间坐标, s 为每组中层坐标, σ0 为初始尺度, S 为每组层数(一般层数为3~5)。 根据公式推理可以得到,金字塔组内各层尺度以及组间各图像尺度关系: 相邻两组的同一层尺度为2倍的关系 。 3.构建Dog金字塔 高斯金字塔相邻两层相减,便可以得到 DoG (Difference of Gaussian)金字塔。

计算机视觉--SIFT算法

我是研究僧i 提交于 2020-03-08 21:25:36
1 SIFT描述子 1.1SIFT描述子简介 SIFT,即尺度不变特征变换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。 1.2 SIFT算法实现步骤简述 SIFT算法实现特征匹配主要有三个流程,1、提取关键点;2、对关键点附加 详细的信息(局部特征),即描述符;3、通过特征点(附带上特征向量的关 键点)的两两比较找出相互匹配的若干对特征点,建立景物间的对应关系。 2 关键点检测的相关概念 2.1 哪些点是SIFT中要查找的关键点(特征点) 这些点是一些十分突出的点不会因光照、尺度、旋转等因素的改变而消 失,比如角点、边缘点、暗区域的亮点以及亮区域的暗点。既然两幅图像中 有相同的景物,那么使用某种方法分别提取各自的稳定点,这些点之间会有 相互对应的匹配点 2.2 什么是尺度空间 关键点检测的相关概念 尺度空间中各尺度图像的 模糊程度逐渐变大,能够模拟 人在距离目标由近到远时目标 在视网膜上的形成过程。 尺度越大图像越模糊。 根据文献《Scale-space theory: A basic tool for analysing structures at different scales》可知,高斯核是唯一可以产生 多尺度空间的核,一个