特征提取 | 易学教程

Paper Reading:RCNN-SPP-Fast RCNN-Faster RCNN

阅读更多关于 Paper Reading:RCNN-SPP-Fast RCNN-Faster RCNN

本文对基于RCNN框架的几个模型进行介绍和总结。 [目标检测][base64str0] RCNN 论文：Rich feature hierarchies for accurate object detection and semantic segmentation 发表时间：2014 发表作者：(加州大学伯克利分校)Ross Girshick 发表刊物/会议：CVPR 本文具有很多比较重要的意义。 1、在 Pascal VOC 2012 的数据集上，能够将目标检测的验证指标 mAP 提升到 53.3%,这相对于之前最好的结果提升了整整 30%. 2、这篇论文证明了可以讲神经网络应用在自底向上的候选区域，这样就可以进行目标分类和目标定位。 3、这篇论文也带来了一个观点，那就是当你缺乏大量的标注数据时，比较好的可行的手段是，进行神经网络的迁移学习，采用在其他大型数据集训练过后的神经网络，然后在小规模特定的数据集中进行 fine-tune 微调。候选区域与 CNN 结合 R-CNN利用候选区域与 CNN 结合做目标定位。其中借鉴了滑动窗口思想，R-CNN 采用对区域进行识别的方案。具体是：给定一张输入图片，从图片中提取 2000 个类别独立的候选区域。对于每个区域利用 CNN 抽取一个固定长度的特征向量。再对每个区域利用 SVM 进行目标分类。 [R-CNN1]

【论文整理】：R-CNN、fast R-CNN、faster R-CNN三者的整理

阅读更多关于【论文整理】：R-CNN、fast R-CNN、faster R-CNN三者的整理

看了《基于特征共享的高效物体检测》论文后，为加强理解，网上找了关于R-CNN、Fast R-CNN、Faster R-CNN三篇论文的详解，现在先将三者的问题、创新点以及待改进的地方做一个表格，方便自己以后复习查阅。参考：对于这三篇论文的详解，网上有很多，个人特别喜欢是这个博主（WoPawn）写的文章。这三篇详解，写得太赞了，这里膜拜一下大佬，。 R-CNN论文详解 Fast R-CNN论文详解 Faster R-CNN论文详解三个框架的整理： \ R-CNN Fast R-CNN Faster R-CNN 针对的问题 1.近10年以来，以人工经验特征为主导的物体检测任务mAP【物体类别和位置的平均精度】提升缓慢； 2.随着ReLu激励函数、dropout正则化手段和大规模图像样本集ILSVRC的出现，在2012年ImageNet大规模视觉识别挑战赛中，Hinton及他的学生采用CNN特征获得了最高的图像识别精确度； 3.上述比赛后，引发了一股“是否可以采用CNN特征来提高当前一直停滞不前的物体检测准确率“的热潮。 1. R-CNN网络训练、测试速度都很慢；R-CNN网络中，一张图经由selective search算法提取约2k个建议框【这2k个建议框大量重叠】，而所有建议框变形后都要输入AlexNet CNN网络提取特征【即约2k次特征提取】

目标检测（R-CNN、Fast R-CNN、Fater R-CNN）

阅读更多关于目标检测（R-CNN、Fast R-CNN、Fater R-CNN）

目标检测（R-CNN、Fast R-CNN、Faster R-CNN） 1、目标检测（object detection）图像识别是输入一张图像，输出该图像对应的类别。目标检测的输入同样是一张国像，但输出不单单是图像的类别，而是该图像中所含的所有目标物体以及它们的位置，通常使用矩形框来标识物体的位置。大部分的目标检测方法流程是：生成区域候选框，对这些区域框提取特征（SIFT 特征、HOG 特征、CNN），使用图像识别方法分类（SVM、CNN），得到所有分类成功的区域后，通过非极大值抑制（ Non-maximum suppression ）输出结果。 2、候选框（bounding boxes）区域候选框的生成主要有两种方法，一种是穷举法、一种是选择性搜索。穷举法：也叫滑窗法。使用不同大小的窗口在图片上从左到右，从上到下滑动，每次滑动就是一个候选框，由于是全局搜索而且要考虑窗口的长宽比，计算量大、效率低下。选择搜索（Selective Search）：首先，使用图像分割（边缘等特性）算法，分割出许多小区域；然后，根据这些小区域之间相似性(颜色、纹理等)进行区域合并，不断的进行区域迭代合并。每次迭代过程中对这些合并的子区域做 bounding boxes (外切矩形)就生成了候选框。 3、R-CNN：Region-CNN R-CNN 算法原理： Selective

卷积神经网络概述

阅读更多关于卷积神经网络概述

原文: http://blog.gqylpy.com/gqy/418 置顶：来自一名75后老程序员的武林秘籍——必读（博主推荐）来，先呈上武林秘籍链接： http://blog.gqylpy.com/gqy/401/ 你好，我是一名极客！一个 75 后的老工程师！我将花两分钟，表述清楚我让你读这段文字的目的！如果你看过武侠小说，你可以把这个经历理解为，你失足落入一个山洞遇到了一位垂暮的老者！而这位老者打算传你一套武功秘籍！没错，我就是这个老者！干研发 20 多年了！我也年轻过，奋斗过！我会画原理图，会画 PCB，会模拟，会数字！玩过 PLC，玩过单片机，会用汇编，会用 C！玩过 ARM，比如 PLC，STM32，和时下正在起飞的 NXP RT1052！搞过 DSP，比如 TMS320F28335！搞过 FPGA，不管 Xilinx 还是 Altera，也不管是 Verilog 还是 VHDL，或者直接画数字电路图！我懂嵌入式系统，比如 uCOS 和 Linux！我懂开源的硬件，比如 Arduino 和树莓派!我也搞软件，学了一堆上位机的语言C#，JAVA，Python，Kotlin，Swift！会写爬虫工具，又自学写APP，不管Android 还是 IOS！可是这一切有什么用呢？土鸡瓦狗！不值一提！干技术的永远就是最苦逼的那个人！我相信看到这里的你，应该是个 IT

SPP Net

阅读更多关于 SPP Net

RCNN对每个候选框都提取了特征，而且对于有重复区域的候选框们，这部分重复的区域相当于不断重复提取了特征，很麻烦。所以能不能只提取一次特征呢？也就是只卷积一次。 R-CNN对候选框尺寸进行了wrap，全都改为227x227，改变尺寸势必会影响到检测效果，所以能不能不改变尺寸？因此SPP提出的更新：取消了crop/warp图像归一化过程，采用空间金字塔池化（SpatialPyramid Pooling ）替换了全连接层之前的最后一个池化层（因为rcnn提取的是Pool5层的特征）： SPP结构图：存在的不足： 1）和RCNN一样，训练过程仍然是隔离的，提取候选框 | 计算CNN特征| SVM分类 | Bounding Box回归独立训练，大量的中间结果需要转存，无法整体训练参数； 2）SPP-Net在无法同时Tuning在SPP-Layer两边的卷积层和全连接层，很大程度上限制了深度CNN的效果； 3）在整个过程中，Proposal Region仍然很耗时。来源： https://www.cnblogs.com/pacino12134/p/11406001.html

R-CNN

阅读更多关于 R-CNN

大致过程：输入图像，采用Selective Search 从原始图片中提取 2000 个左右区域候选框；将所有候选框变为固定大小的（227*227）区域；（归一化） CNN网络提取特征 SVM结合NMS(非极大值抑制)识别分类区域边框，采用DPM精修边框的位置来源： https://www.cnblogs.com/pacino12134/p/11404945.html

2019/08/22

阅读更多关于 2019/08/22

今日完成还是找论文，看论文，中文的英文的，资料很少，基本上没有这类型的论文，看到了有关cnn分类案件的，cnn本身就可以做特征提取，在想可以不可以用cnn代替bpnn，这样就省去了特征提取的环节了。还是没有做特征提取，正则表达式或TF-IDF啥的，明天一定写。明日计划写TF-IDF，先尝试用BPNN的方法做一下吧，两种方法其实都可以用，可能CNN做非线性回归预测比较少吧，不知道做出来效果好不好，但是我觉得可以对比着做。今日感想好累啊。看论文找论文。来源： https://www.cnblogs.com/I-AM-DUMBASS/p/11396966.html

特征选择/特征提取

阅读更多关于特征选择/特征提取

定义：特征选择是一个「降维」的过程，是一个去掉无关特征，保留相关特征的过程。从所有特征集中选取最好的一个特征子集。特征提取是一个将机器学习算法不能识别出来的原始数据转变成可以识别到数据特征的过程。没有「筛选」的操作，不需要考虑特征是否有用，所以并不能称其为降维。比如说，文本是由一系列文字组成的，这些文字在经过分词后会形成一个词语集合，对于这些词语集合（原始数据），机器学习算法是不能直接使用的，我们需要将它们转化成机器学习算法可以识别的数值特征（固定长度的向量表示），然后再交给机器学习的算法进行操作。再比如说，图片是由一系列像素点构（原始数据）成的，这些像素点本身无法被机器学习算法直接使用，但是如果将这些像素点转化成矩阵的形式（数值特征），那么机器学习算法就可以使用了。通过实例理解，以文本分类为例：　　假设语料库里有若干文章，现在要对其中一篇文章做分词处理，把每篇文章都看作是一个词语的集合。然后将每篇文章作为数据来训练分类模型，由于原始数据都是单词并且每篇文章的词语个数不同，所以不能直接被机器学习算法所利用。因为机器学习需要的是定长的数值化特征，所以我们的目的就是要将所有的原始数据变成数值化来表示，这就是所谓的特征提取。具体步骤如下：先对训练数据里的每一篇文章，做词语统计（停用词去除掉），以形成一个词语向量。最后效果是每一个词语都代表词语向量中的一个元素

特征、特征不变性、尺度空间、图像金字塔

阅读更多关于特征、特征不变性、尺度空间、图像金字塔

特征在计算机视觉领域，特征是为了完成某一特定任务需要的相关信息。比如，人脸检测中，我们需要在图像中提取特征来判断哪些区域是人脸、哪些区域不是人脸，人脸验证中，我们需要在两个人脸区域分别提取特征，来判断他们是不是同一个人，如下图所示，深度神经网络最终得到一个128维的特征用于识别等任务。常用的特征：图像灰度or灰度、直方图、梯度、边缘、纹理、矩、SIFT、深度学习特征等等。以关键点特征为例，关键点指的是可以稳定出现的特殊点，如角点、局部极值点等，如上图中人脸中眼鼻口处的关键点，先检测图像中的关键点，然后在以该点为中心的邻域范围内提取信息，作为该点的特征描述。关键点特征的好处在于，关键点可以稳定复现同时其特征描述聚焦在关键点邻域内，对遮挡、形变等有很好鲁棒性。不同的特征适用范围也不同，有些特征对光照敏感，有些特征对形变敏感，需要根据任务场景选择适合的特征 ——适合的才是最好的，不是什么时候都要上牛刀。如果任务场景简单，比如明确知道光照条件不变、人脸基本正面且表情妆容没有变化，可能直接使用灰度或梯度进行模板匹配就可以识别了，但如果场景复杂，光照可能变化、表情可能变化、人脸角度也不确定，那么为了完成任务，选取的特征就需要有较好的适应性，这就要谈到特征不变性。特征不变性以上图为例，左右两图中玩具车的姿态不同、大小不同、图像亮度不同，对应局部（图中黄色小块

DNNDK车辆特征提取

阅读更多关于 DNNDK车辆特征提取

一、prototxt car.prototxt：原本的训练文件（A） deploy.prototxt：GoogLeNet Caffe示例文件（B） Inception_v1_float.prototxt：Inception v1 DNNDK示例文件（C） 1、data层（三者存在差异）： A: layer { name: "data" type:"MemoryData" top: "data" top: "label" memory_data_param { batch_size: 1 channels:3 height: 224 width: 224 } transform_param { crop_size: 224 mirror: false } } B: layer { name: "data" type: "Input" top: "data" input_param { shape: { dim: 10 dim: 3 dim: 224 dim: 224 } } } C: layer { name: "data" type: "ImageData" top: "data" top: "label" include { phase: TRAIN } transform_param { mirror: false mean_value: 104 mean_value: 117

订阅特征提取