特征提取

3.特征提取

﹥>﹥吖頭↗ 提交于 2019-11-27 08:16:43
3.特征提取 将使用特征提取函数。函数代码也与之前类似,该函数具体如下: utils.py 折叠源码 # -*- coding: utf-8 -*- """ Created on Sun Sep 11 23:06:06 2016 @author: DIP """ from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer def build_feature_matrix(documents, feature_type = 'frequency' , ngram_range = ( 1 , 1 ), min_df = 0.0 , max_df = 1.0 ): feature_type = feature_type.lower().strip() if feature_type = = 'binary' : vectorizer = CountVectorizer(binary = True , min_df = min_df, max_df = max_df, ngram_range = ngram_range) elif feature_type = = 'frequency' : vectorizer = CountVectorizer(binary = False , min_df

5.特征提取

只谈情不闲聊 提交于 2019-11-27 08:16:36
5.特征提取 有很多特征提取技术可以应用到文本数据上,但在深入学习之前,先思考特征的意义。为什么需要这些特征?它们又如何发挥作用?数据集中通常包含很多数据。一般情况下,数据集的行和列是数据集的不同特征或属性,每行或者每个观测值都是特殊的值。在机器学习术语中, 特征 是独一无二的,是数据集中每个观测值或数据的可度量的属性或性质。特征通常具有数据的性质,可能是绝对值或是列表中每个分类进行二进制编码的分类特征,这一过程为 一位有效 (one-hot)编码过程。特征的特区和选择过程即使一门科学,也是一门艺术,这个过程也称为特征提取或特征工程。 通常情况下,为获取洞见,把提取到的特征送入机器学习算法以学习可以应用到新数据特征上的模式。因为每个算法的核心是数学上的优化操作,当算法从数据的观测值上学习模式时,是一个最小化误差和错误的过程,所以这些算法一般都期望特征是数值向量的形式。因此,处理文本数据增加的挑战就是如何转换文本数据并从中提取数值特征。 现在,看一些与文本数据有关的特征提取概念的技术。 向量空间模型 是处理文本数据非常有用概念和模型,并在信息索引与文档排序中广泛使用。向量空间模型也称为词向量模型,定义为文本文档转换与表示的数学或代数模型,作为形成向量维度的特定词项的数字向量。数学上定义如下,假设在文档向量空间 VS 中有一个文档 D

ORB 特征提取算法(理论篇)

风流意气都作罢 提交于 2019-11-27 05:08:53
Abstract ORB 是 Oriented Fast and Rotated Brief 的简称,可以用来对图像中的关键点快速创建特征向量,这些特征向量可以用来识别图像中的对象。 其中,Fast 和 Brief 分别是特征检测算法和向量创建算法。ORB 首先会从图像中查找特殊区域,称为关键点。关键点即图像中突出的小区域,比如角点,比如它们具有像素值急剧的从浅色变为深色的特征。然后 ORB 会为每个关键点计算相应的特征向量。ORB 算法创建的特征向量只包含 1 和 0,称为二元特征向量。1 和 0 的顺序会根据特定关键点和其周围的像素区域而变化。该向量表示关键点周围的强度模式,因此多个特征向量可以用来识别更大的区域,甚至图像中的特定对象。 ORB 的特点是速度超快,而且在一定程度上不受噪点和图像变换的影响,例如旋转和缩放变换等。 FAST 算法 ORB 特征检测的第一步是查找图像中的关键点,而关键点检测算法即使用 FAST 算法。 FAST 是 Features from Accelerated Segments Test 的简称,可以快速选择关键点,算法步骤如下: 给与一个像素点 p,FAST 比较目标 p 圆圈范围中的 16 个像素,每个像素按高于 p,小于 p,或者与 p 相似,分为三类。 注意这里的比较是带有阈值 h 的。对于给定的阈值 h,更亮的像素将是亮度超过 Ip

图像预处理

怎甘沉沦 提交于 2019-11-27 01:02:29
1、主流颜色空间 RGB三通道彩色图,每个通道都是[0,255],常用的三通道—>单通道,Gray=R*0.3+G*0.59+B*0.11 2、图像增强的目标 改善图像的视觉效果 转换为更适合人或机器分析处理的形式; 突出对人或机器分析有意义的信息 抑制无用信息,提高图像的使用价值 包括图像锐化、平滑、去躁、灰度调整(对比度增强) 3、图像处理方法 3.1 特征提取方法 直方图 3.2 空间域处理及其变换 来源: https://www.cnblogs.com/yqpy/p/11337369.html

论文阅读:Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》

让人想犯罪 __ 提交于 2019-11-26 19:17:50
论文阅读: Face Recognition: From Traditional to Deep Learning Methods 《人脸识别综述:从传统方法到深度学习》 一、引言 1.探索人脸关于姿势、年龄、遮挡、光照、表情的不变性,通过特征工程人工构造feature,结合PCA、LDA、支持向量机等机器学习算法。 2.流程 人脸检测,返回人脸的bounding box 人脸对齐,用2d或3d的参考点,去对标人脸 人脸表达,embed 人脸匹配,匹配分数 二、人脸识别发展综述 1.几何特征 最早:边缘提取算子和连通域算子提取特征器官 发展:梯度图像 普氏距离分析 基于几何理论的方法在3d识别中有一定应用 [20][21] 2.整体方法 PCA [22-24] PCA的概率版变体,利用贝叶斯分析 [25]。使用两组特征脸来描述相同人和不同人之间variation PAC其他变体 kernel PCA 独立成分分析 ICA 其他见文章 PCA方法总的来说是基于整体脸,而不是局部部件,来判断输入图像是否是人脸。 PCA方法的问题在于,其投影将训练集中所有图片的variance最大化了,也就是说,最大的特征向量并不利于人脸识别,这是因为,提取到的eigenvector很有可能同一个体的variation(光照,姿势,表情带来的) LDA,即Fisher discriminant