特征提取

图像预处理

匿名 (未验证) 提交于 2019-12-02 23:54:01
1、主流颜色空间 RGB三通道彩色图,每个通道都是[0,255],常用的三通道―>单通道,Gray=R*0.3+G*0.59+B*0.11 2、图像增强的目标 改善图像的视觉效果 转换为更适合人或机器分析处理的形式; 突出对人或机器分析有意义的信息 抑制无用信息,提高图像的使用价值 包括图像锐化、平滑、去躁、灰度调整(对比度增强) 3、图像处理方法 3.1 特征提取方法 直方图 3.2 空间域处理及其变换 来源: https://www.cnblogs.com/yqpy/p/11337369.html

三、SSP-Net

匿名 (未验证) 提交于 2019-12-02 23:34:01
SSP-Net TPAMI2014 一、优缺点 优点 : 1.不用像R-CNN一样,对于每一个region proposal 都提取一遍特征,而是一整张图片放进去提取特征。在conv5层输出提取的所有region proposal 的特征,节省了大量的特征。 2.引入了空间金字塔池化,使得在不同尺度的特征上提取一个特征,然后映射到尺寸固定的全连接层上。 缺点 : 1.需要存储大量的特征,region proposal对应的特征 2.依然和R-CNN一样是多阶段训练的,先是特征提取,然后用SVM分类以及对Bounding box回归 3.训练时间长(25.5小时) 二、过程 1.对于一整张图片的输入,先做卷积,提取了conv5层的特征,Select Search找到图片上的region proposal,然后对应到Con5提取的特征上。 2.对于region proposal对应的不同尺度的特征首先输入到SPP层得到一个相同大小的输出 3.对SPP层输出的特征去做分类以及回归操作。 三、空间金字塔 :对于不同尺度的输入,输出一个相同尺度的特征 对于不同特征的输入,引入空间金字塔池化层,对特征进行了一个4 4,2 2,1*1网格的划分,然后对于每一个网格分别进行最大池化操作,把不同网格池化之后的特征进行了拼接,因此,可以得到16+4+1=21维的一个特征的输出。 四、训练过程 文章来源

动态锁定(每个帧特征捕捉实现)Python

匿名 (未验证) 提交于 2019-12-02 22:11:45
下面中cap的内容选的是0,表示启动摄像头0(如果只有一个摄像头的话,就直接找到对应的那个)。 注释部分,其实是背景提取后的效果,或者是提取之后的再做阈值的处理后的图片 import cv2 cap = cv2 .VideoCapture ( 0 ) bs = cv2 .createBackgroundSubtractorKNN (detectShadows=True) while True: ret , frame = cap .read () fgmask = bs .apply (frame) th = cv2 .threshold (fgmask .copy (), 244 , 255 , cv2 .THRESH _BINARY)[ 1 ] dilated = cv2 .dilate (th, cv2 .getStructuringElement (cv2 .MORPH _ELLIPSE, ( 3 , 3 )), iterations= 2 ) image, content, hier = cv2 .findContours (dilated, cv2 .RETR _EXTERNAL, cv2 .CHAIN _APPROX_SIMPLE) for c in content: if cv2 .contourArea (c) > 1600 : ( x , y , w, h) =

目标检测算法的总结(R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD、FNP、ALEXnet、RetianNet、VGG Net-16)

天涯浪子 提交于 2019-12-02 03:26:14
目标检测解决的是计算机视觉任务的基本问题:即What objects are where?图像中有什么目标,在哪里?这意味着,我们不仅要用算法判断图片中是不是要检测的目标, 还要在图片中标记出它的位置, 用边框或红色方框把目标圈起来。如下图 目前存在的一些挑战在于:除了计算机视觉任务都存在的 不同视角、不同光照条件以及类内差异 等之外,还存在 目标旋转和尺度变化(如小目标) ,如何精确的目标定位,密集和遮挡条件下的目标检测,以及如何加快检测速度等。 下图是目标检测的发展历程: 以 2014 年为界,目标检测分为传统目标检测时期(区域选择,特征提取,分类)和基于深度学习的目标检测时期(目标分类和目标定位)   比较流行的算法可以分为两类:(two-stage和one-stage,前者是由粗到精的过程,而后者则一步到位。) 目前对于One-Stage算法的主要 创新 主要集中在如何设计CNN结构、如何构建网络目标以及如何设计损失函数上  一类是基于 Region Proposal 的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN等),它们是 two-stage 的,需要先通过算法 产生目标候选框 ,也就是目标位置,然后再对候选框 做分类与回归。  而另一类是 Yolo,SSD这类one-stage 算法

一些常用的语音特征提取算法

試著忘記壹切 提交于 2019-12-02 02:10:48
前言   语言是一种复杂的自然习得的人类运动能力。成人的特点是通过大约100块肌肉的协调运动,每秒发出14种不同的声音。说话人识别是指软件或硬件接收语音信号,识别语音信号中出现的说话人,然后识别说话人的能力。特征提取是通过将语音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。因此,可接受的分类是从优良和优质的特征中衍生出来的。Mel频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)是本章讨论的语音特征提取技术。这些方法已经在广泛的应用中进行了测试,使它们具有很高的可靠性和可接受性。研究人员对上述讨论的技术做了一些修改,使它们更不受噪音影响,更健壮,消耗的时间更少。总之,没有一种方法优于另一种,应用范围将决定选择哪种方法。 本文主要的关键技术:mel频率倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数(LPCC),线谱频率(LSF),离散小波变换(DWT),感知线性预测(PLP) 1 介绍   人类通过言语来表达他们的感情、观点、观点和观念。语音生成过程包括发音、语音和流利性[1,2]。这是一种复杂的自然习得的人类运动能力,在正常成年人中,这项任务是通过脊椎和颅神经连接的大约100块肌肉协调运动,每秒发出大约14种不同的声音

【CV现状-3.3】特征提取与描述

℡╲_俬逩灬. 提交于 2019-12-01 07:44:57
#磨染的初心——计算机视觉的现状 【这一系列文章是关于计算机视觉的反思,希望能引起一些人的共鸣。可以随意传播,随意喷。所涉及的内容过多,将按如下内容划分章节。 已经完成的会逐渐加上链接 。】 缘起 三维感知 目标识别 3.0. 目标是什么 3.1. 图像分割 3.2. 纹理与材质 3.3. 特征提取与分类 目标(和自身)在三维空间中的位置关系 目标的三维形状及其改变、目标的位移 符号识别 数字图像处理 特征提取与分类 一定是因为纹理分析与描述以及图像分割没有取得有效的进展,导致通过材质、形状、结构进行目标识别的愿望落了空。甚至当前最优秀的图像分割算法都不能产生人类能够识别的图斑形状,此外形状和结构描述方面也没有取得多少成果,更遑论有价值的成果。但是机器学习却取得了长足的进步,各种各样适合不同分布模型的监督分类算法被发明了出来。目标识别也就顺其自然地走上了“提取特征+描述特征+监督分类”的路线,成就也是显而易见的,当前落地了的计算机视觉应用背后都得到了“特征提取与描述”以及分类的加持。随着卷积神经网络的出现,人工特征提取与描述都省了,计算机视觉已然有了被机器学习收归囊下的意思。 然而相对于纸面上的喧嚣,卷积神经网络并没有开拓出实打实的应用领域。在深度学习成为热词之前,计算机视觉已经满足了人脸识别、指纹识别、行人检测、车辆检测、质检、工业控制等场景的应用需求

opencv::sift特征提取

夙愿已清 提交于 2019-12-01 01:42:45
SIFT特征检测介绍 SIFT(Scale-Invariant Feature Transform)特征检测关键特性: -建立尺度空间,寻找极值 -关键点定位(寻找关键点准确位置与删除弱边缘) -关键点方向指定 -关键点描述子 关键点定位 我们在像素级别获得了极值点的位置,但是更准确的 值应该在亚像素位置,如何得到 – 这个过程称为关键 点(准确/精准)定位 删除弱边缘- 通过Hassian 矩阵特征值实现,小于阈值 自动舍 建立尺度空间,寻找极值。工作原理 1. 构建图像高斯金字塔,求取DOG,发现最大与最小值在每一级 2. 构建的高斯金字塔,每一层根据sigma的值不同,可以分为几个等级,最少有4 个。 关键点定位 在像素级别获得了极值点的位置,但是更准确的 值应该在亚像素位置,如何得到 – 这个过程称为关键 点(准确/精准)定位。 删除弱边缘- 通过Hassian 矩阵特征值实现,小于阈值 自动舍 关键点方向指定 求得每一层对应图像的梯度,根据给定的窗口大小 计算每个高斯权重,sigma=scalex1.5, 0~360之间建立 36个直方图Bins 找最高峰对应的Bin, 大于max*80% 的都保留 。这样就实现了旋转不变性,提高了匹配时候的稳定性。 大约有15%的关键点会有多个方向。 关键点描述子 拟合多项式插值寻找最大Peak 得到描述子 = 4x4x8=128 cv

OpenCV中特征检测和特征匹配方法

孤者浪人 提交于 2019-11-30 04:01:41
一幅图像中总存在着其独特的像素点,这些点我们可以认为就是这幅图像的特征,成为特征点。计算机视觉领域中的很重要的图像特征匹配就是一特征点为基础而进行的,所以,如何定义和找出一幅图像中的特征点就非常重要。这篇文章我总结了视觉领域最常用的几种特征点以及特征匹配的方法。 在计算机视觉领域,兴趣点(也称关键点或特征点)的概念已经得到了广泛的应用, 包括目标识别、 图像配准、 视觉跟踪、 三维重建等。 这个概念的原理是, 从图像中选取某些特征点并对图像进行局部分析,而非观察整幅图像。 只要图像中有足够多可检测的兴趣点,并且这些兴趣点各不相同且特征稳定, 能被精确地定位,上述方法就十分有效。 以下是实验用的图像:第一幅是手机抓拍的风景图,第二幅是遥感图像。 1.SURF 特征检测的视觉不变性是一个非常重要的概念。 但是要解决尺度不变性问题,难度相当大。 为解决这一问题,计算机视觉界引入了尺度不变特征的概念。 它的理念是, 不仅在任何尺度下拍摄的物体都能检测到一致的关键点,而且每个被检测的特征点都对应一个尺度因子。 理想情况下,对于两幅图像中不同尺度的的同一个物体点, 计算得到的两个尺度因子之间的比率应该等于图像尺度的比率。近几年, 人们提出了多种尺度不变特征,本节介绍其中的一种:SURF特征。 SURF全称为“加速稳健特征”(Speeded Up Robust Feature),我们将会看到

池化的名字由何而来?

淺唱寂寞╮ 提交于 2019-11-29 10:13:34
根据前面的卷积过程,我们可以达到特征提取的作用。基本上已经判断出谁是C谁是D。底下可以再进一步做一次池化。数据库连接池记得吧?把很多数据库连接放在一个池子里,想用时挑一个来用。这里做完卷积得到这么多数据,就像池子一样,对于这池子里的数据,我们可以继续做各种各样的操作,比如最大池化或平均池化。最大池化顾名思义就是从池子中取出最大值。注意取最大值,不是整体取最大值,而是邻域取最大值。结果就如下图,第一个区域(只有四个数)的最大值是5,第二个区域的最大值是1。以此类推。 经历了以上两步卷积和池化以后,我们得到的结果,真是太好不过了。首先,经过卷积,也就是特征提取,我们成功的得到了结果5。这个值越大,就说明特征越突出,越能增加最后判断结果的正确性。第二步池化,还能把不是特征的部分丢弃,起到去燥的效果,还为我们将来。。。。。。。。。。。。。。。。。。 文章转载自原文: https://blog.csdn.net/qq_44596980/article/details/100620372 来源: https://www.cnblogs.com/renzhe111/p/11513106.html

卷积到底有什么作用?如何做到特征提取?

寵の児 提交于 2019-11-29 10:11:06
[学习笔记] 经过前面的神经网络的基础学习,终于进入我们这章的核心部分,卷积神经网络(CNN, Convolutional Neural Networks)。很多同学学了半天卷积神经网络,但一直有一个最最根本的问题没有搞懂,他也知道怎么做卷积了,也知道怎么做池化了,就是不知道在为什 么这么干?马克-to-win @ 马克java社区:一直云里雾里的。一般的视频或书中从来也不提及这件事,总是一步到位高大上的各种动图,显示怎么卷怎么卷。没办法,这任务落我肩上了, 我尽量深入浅出地把它讲明白吧!卷卷积到底有什么作用?如何做到特征提取?积和池化怎么做,最重要的是为什么要这么做。 文章转载自原文: https://blog.csdn.net/qq_44639795/article/details/100603849 来源: https://www.cnblogs.com/haima1949/p/11512844.html