特征提取

兴趣点检测参考文献

感情迁移 提交于 2020-02-08 00:03:24
整理如下: OpenCV 尺度不变特征检测:SIFT、SURF、BRISK、ORB SIFT算法详解 SIFT特征匹配算法介绍——寻找图像特征点的原理 SURF特征提取分析 BRISK特征提取算法 ORB特征提取与匹配 来源: CSDN 作者: Wake_up. 链接: https://blog.csdn.net/qq_40851561/article/details/104216181

你不得不了解的目标检测发展史

喜你入骨 提交于 2020-02-07 15:48:21
计算机视觉 计算机视觉中的三大类任务: 分类 Classification:解决“是什么?”的问题,即给定一张图片或一段视频判断里面包含什么类别的目标 定位 Location:解决“在哪里”的问题,即定位出这个目标的位置 检测 Detection:解决“是什么?在哪里”的问题,即定位出这个目标的位置并且知道目标物是什么 分割 Segmentation:分为实例分割和场景分割,解决“每一个像素属于哪个目标物或场景”的问题。 一、目标检测 目标检测可以理解为是物体识别和物体定位的综合,不仅仅要识别物体属于哪个分类,更重要的是得到物体在图片中的具体位置。 为了完成这两个任务,目标检测模型分为两类。一类是two-stage算法;一类是one-stage算法。对于two-stage检测方法来说,它先生成了可能包含物体的候选区域Region Proposal,然后对这个候选区域做进一步的分类和校准,得到最终的检测结果,代表方法有R-CNN系列方法。而对于one-stage检测算法直接给出最终的检测结果,没有经过生成候选区域的步骤,典型代表为YOLO和SSD。 目标检测算法的3个模块: 第一个是检测窗口的选择 ; 第二个是图像特征的提取 ; 第三个是分类器的设计 。 补充基础知识之检测窗口的选择 1.滑动窗口法 首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动

图像特征提取三大法宝:HOG特征,LBP特征,Haar特征

喜欢而已 提交于 2020-02-07 04:46:25
图像特征提取三大法宝:HOG特征,LBP特征,Haar特征 (一)HOG特征 1、HOG特征: 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的,而如今虽然有很多行人检测算法不断提出,但基本都是以HOG+SVM的思路为主。 (1)主要思想: 在一副图像中,局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。(本质:梯度的统计信息,而梯度主要存在于边缘的地方)。 (2)具体的实现方法是: 首先将图像分成小的连通区域,我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。 (3)提高性能: 把这些局部直方图在图像的更大的范围内(我们把它叫区间或block)进行对比度归一化(contrast-normalized),所采用的方法是:先计算各直方图在这个区间(block)中的密度,然后根据这个密度对区间中的各个细胞单元做归一化

目标检测的图像特征提取之(二)LBP特征

穿精又带淫゛_ 提交于 2020-02-07 04:45:06
LBP( Local Binary Pattern ,局部二值模式)是一种用来描述图像 局部纹理特征 的算子;它具有旋转不变性和灰度不变性等显著的优点。它是首先由 T. Ojala, M.Pietikäinen, 和 D. Harwood 在 1994 年提出,用于纹理特征提取。而且,提取的特征是图像的局部的纹理特征; 1 、 LBP 特征的描述 原始的 LBP 算子定义为在 3*3 的窗口内,以窗口中心像素为阈值,将相邻的 8 个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为 1 ,否则为 0 。这样, 3*3 邻域内的 8 个点经比较可产生 8 位二进制数(通常转换为十进制数即 LBP 码,共 256 种),即得到该窗口中心像素点的 LBP 值,并用这个值来反映该区域的纹理信息。如下图所示: LBP 的改进版本: 原始的 LBP 提出后,研究人员不断对其提出了各种改进和优化。 ( 1 )圆形 LBP 算子: 基本的 LBP 算子的最大缺陷在于它只覆盖了一个固定半径范围内的小区域,这显然不能满足不同尺寸和频率纹理的需要。为了适应不同尺度的纹理特征,并达到灰度和旋转不变性的要求, Ojala 等对 LBP 算子进行了改进,将 3 × 3 邻域扩展到任意邻域,并用圆形邻域代替了正方形邻域,改进后的 LBP 算子允许在半径为 R

NMF人脸数据特征提取

点点圈 提交于 2020-02-06 01:22:43
非负矩阵分解(NMF) 非负矩阵分解是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。 基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和H的乘积近似等于矩阵V中的值。 非负矩阵分解(NMF) W矩阵:基础图像矩阵,相当于从原矩阵V中提取的特征。 矩阵:系数矩阵。 NMF能够广泛应用于图像分析、文本挖掘和语音处理等领域。 矩阵分解优化目标:最小化W矩阵H矩阵的乘积和原始矩阵之间的差别。 import matplotlib . pyplot as plt from sklearn import decomposition #加载PCA算法包 from sklearn . datasets import fetch_olivetti_faces #加载人脸数据集 from numpy . random import RandomState #加载RandomState用于创建随机种子 n_row , n_col = 2 , 3 #设置图像展示时的排列情况,2行三列 n_components = n_row = n_col #设置提取的特征的数目 image_shape = ( 64 , 64 ) #设置人脸数据图片的大小 dataset = fetch_olivetti_faces ( shuffle = True , random

译文:FishNet

好久不见. 提交于 2020-02-05 04:31:05
FishNet: 用于图像、区域和像素级的多功能主干网络 摘要 对于预测不同层级的目标对象(如图像级、区域级和像素级),设计卷积神经网络( CNN )结构的基本原则具有多样性。一般来讲,专门为图像分类任务所设计的网络结构,会默认作为其他任务(包括检查和分割)的主干网络结构。但是,多数网络的主干设计并没有考虑统一网络的优势,而为像素级或区域级的预测任务设计主干网络,原因可能是需要更高分辨率的深层特征。为了实现这一目标,本文设计了一个类似鱼形的主干网络,我们称为 FishNet 。在 FishNet 中,所有的解决方案信息都会被保留,并在最后的任务进行精炼。除此之外,我们观察到,现存的工作并不能直接将梯度信息从深层网络传递给浅层网络,而本文的设计可以更好地处理该问题。为了验证 FishNet 的性能表现,我们进行了大量实验。特别地,在 ImageNet-1k 数据集上,在参数较少的情况下, FishNet 的性能可以完全超过 DenseNet 和 ResNet 。 FishNet 已经被应用在赢得 2018 年 COCO 检测挑战赛的一个模块中。代码被公开在: https://github.com/kevin-ssy/FishNet 。 1 简介 在计算机视觉领域中,卷积神经网络( CNN , Convolutional Neural Network

图片特征提取

醉酒当歌 提交于 2020-01-28 05:29:07
计算机视觉是一门研究如何使机器“看”的科学,让计算机学会处理和理解图像。这门学问有时需要借助机器学习。本文介绍一些机器学习在计算机视觉领域应用的基础技术。 通过像素值提取特征 数字图像通常是一张光栅图或像素图,将颜色映射到网格坐标里。一张图片可以看成是一个每个元素都是颜色值的矩阵。表示图像基本特征就是将矩阵每行连起来变成一个行向量。光学文字识别(Optical character recognition,OCR)是机器学习的经典问题。下面我们用这个技术来识别手写数字。 scikit-learn的digits数字集包括至少1700种0-9的手写数字图像。每个图像都有8x8像像素构成。每个像素的值是0-16,白色是0,黑色是16。如下图所示: % matplotlib inline from sklearn import datasets import matplotlib . pyplot as plt digits = datasets . load_digits ( ) print ( 'Digit:' , digits . target [ 0 ] ) print ( digits . images [ 0 ] ) plt . figure ( ) plt . axis ( 'off' ) plt . imshow ( digits . images [ 0 ] , cmap

机器学习中的降维

China☆狼群 提交于 2020-01-24 15:06:58
1. 啥是降维? 摘自维基百科 在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。 降维可进一步细分为变量选择和特征提取两大方法。 简单来说,如果你的数据集是由下面几个成分组成: 1.降雨量 2.湿度 3.房屋价格 4.健康指数 我们显然可以判断,前两个数据具有明显的 相关性 ,意思就是, 我们的原始数据就有比较大的 冗余 , 这对我们进行模型训练是无作用的,因此我们可以通过降维达到: 1. 平均湿度 2. 房屋价格 3. 健康指数 这就是一个改进版的训练集,一般都会在数据预处理阶段对数据先降个维。 2. 降维的方法是啥? 特征选择 : 这里不是特征提取,而是特征提取之后, 再从提取的特征之中筛选几个 1.过滤式选择 1.1 方差选择(低方差特征过滤, 删除低方差的特征项) from sklearn. feature_selection import VarianceThreshold def featur_Select(): data = pd.read_csv("feature.csv") #data =data.iloc[:,1:-2] print("\n") transfer = VarianceThreshold(threshold = 阈值) result = transfer.fit_transform(data)

【采访】腾讯社交广告高校算法大赛 决赛第一周周冠军——ThreeIdiots比赛经验及心得分享 腾讯广告算法大赛

妖精的绣舞 提交于 2020-01-24 03:14:07
这是腾讯社交广告高校算法大赛进入决赛阶段 产生的第一个周冠军 他们的名字叫ThreeIdiots 据说ThreeIdiots是谜一般的存在 大家都在猜他们到底是何方神圣 忍不住先提前透露一下关键词 低调、内敛还有点小帅 有实力的三个大男孩 祝贺你们 小编对咱们的周冠军同学进行了短暂的采访 于是就有了下面这篇分享 ..... 周冠军 ThreeIdiots 大家好,我们是ThreeIdiots队。 首先需要澄清的是,我们并非在Kaggle比赛中使用FFM模型屡获佳绩的台大队伍3Idiots。我们的队伍成员分别是来自北京大学的charles和wepon,和来自中科大的wsss。最初参赛时,我们采取了兵分两路的策略,由wepon主攻稠密特征的提取和xgboost模型的训练,我研究了一段时间的基于稀疏特征训练的FFM模型。FFM模型在初赛的数据上表现并不是很好,最好的结果和xgboost相比也略逊一筹。后来在wsss加入后,一方面是自嘲,另一方面也是出于对台大队伍的敬意,我们将队伍名设为ThreeIdiots并保留至今。如果给大家造成困惑和误解,在此表示歉意。 或许是幸运女神眷顾我们,这次我们拿到了数据切换后的第一个周冠军。之所以说是幸运,是因为我们提取特征的思路与初赛几乎是一致的,而初赛我们的成绩并不理想。我们相信很多人肯定还在默默酝酿等待发力,我们可能只是占了一些实现快速的优势

Deep Learning for Light Field Saliency Detection

北城余情 提交于 2020-01-24 01:07:19
这篇文章是用来解决显著性检测问题的,只不过他用来训练模型的数据集是Light Field Images,即4D的数据集,在了解4D数据集之前,我们先来了解一下3D的数据集,我们平用来训练模型的图片都是2D图片,而3D多出来的一个维度指的就是像素的深度,之前2D估计包含像素的亮度和颜色,像素的深度是通过像素的聚焦程度体现出来的,如图一中的(b)、(c)、(d)这些图片,这些图片中的某些区域聚焦清晰,表示其深度较浅,某些区域为散焦区域,像素模糊,代表深度较深,(a)为所有像素都清晰的图片,称之为all-focus images,相对应于all-focus image的(b)、(c)、(d)各自有不同深度信息的图片堆叠成一个focal stack。4D数据集便是既有all-focus images,又有相对应的focal stack,4D Saliency Detection便是利用4D数据集作为训练输入的显著性检测模型,目的是将focal stack中的深度信息融入到所提取的特征中,更加有利于显著物体的检测。 图一 之前就有的工作就表明,将图片的深度信息当作先验信息加入到显著性检测模型中会起到较大的作用,这由我们人眼观测物体的经验可以解释,我们对离我们距离不同的物体的关注程度是不一样的,所以深度信息也可以作为一种十分有用的特征来进行显著物体的检测