特征向量

马氏距离的深入理解

徘徊边缘 提交于 2020-02-04 11:53:50
转自: http://www.cnblogs.com/kevinGaoblog/archive/2012/06/19/2555448.html 对于马氏距离,本人研究了一下,虽然看上去公式很简单的,但是其中存在很多模糊的东西,例如有很多教科书以及网络上的简要说明,下面以维基百科作为引用: 马氏距离是由印度统计学家马哈拉诺比斯( P. C. Mahalanobis )提出的,表示数据的 协方差 距离。它是一种有效的计算两个未知 样本集 的相似度的方法。与 欧氏距离 不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。 对于一个均值为 , 协方差矩阵 为Σ的多变量矢量 ,其马氏距离为 马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为Σ的随机变量 与 的差异程度: 如果协方差矩阵为单位矩阵,马氏距离就简化为欧式距离;如果协方差矩阵为对角阵,其也可称为正规化的马氏距离。 其中σi是xi的 标准差 。 对于上述的马氏距离,本人研究了一下,虽然看上去公式很简单的,但是其中存在很多模糊的东西,为什么马氏距离是一种考滤到各种特性之间的联系并且是尺度无关的?为什么可以使用协方差矩阵的逆矩阵去掉单位而使之尺度无关。基于此,以下是个人的一些想法。 1

spark7

限于喜欢 提交于 2020-01-29 22:53:17
一、实验目的 (1)通过实验掌握基本的 MLLib 编程方法; (2)掌握用 MLLib 解决一些常见的数据分析问题,包括数据导入、成分分析和分类和 预测等。 二、实验平台 操作系统:Ubuntu16.04 JDK 版本:1.7 或以上版本 Spark 版本:2.1.0 数据集:下载 Adult 数据集(http://archive.ics.uci.edu/ml/datasets/Adult),该数据集也可以 直接到本教程官网的“下载专区”的“数据集”中下载。数据从美国 1994 年人口普查数据 库抽取而来,可用来预测居民收入是否超过 50K$/year。该数据集类变量为年收入是否超过 50k$,属性变量包含年龄、工种、学历、职业、人种等重要信息,值得一提的是,14 个属 性变量中有 7 个类别型变量。 三、实验内容和要求 1.数据导入 从文件中导入数据,并转化为 DataFrame。 主讲教师:林子雨 http://www.cs.xmu.edu.cn/linziyu 第 1 页厦门大学林子雨,赖永炫,陶继平 编著《Spark 编程基础(Scala 版)》 教材配套机房上机实验指南 实验 7 Spark 机器学习库 MLlib 编程实践 主讲教师:林子雨 http://www.cs.xmu.edu.cn/linziyu 第 2 页 2.进行主成分分析(PCA) 对 6

图片特征提取

醉酒当歌 提交于 2020-01-28 05:29:07
计算机视觉是一门研究如何使机器“看”的科学,让计算机学会处理和理解图像。这门学问有时需要借助机器学习。本文介绍一些机器学习在计算机视觉领域应用的基础技术。 通过像素值提取特征 数字图像通常是一张光栅图或像素图,将颜色映射到网格坐标里。一张图片可以看成是一个每个元素都是颜色值的矩阵。表示图像基本特征就是将矩阵每行连起来变成一个行向量。光学文字识别(Optical character recognition,OCR)是机器学习的经典问题。下面我们用这个技术来识别手写数字。 scikit-learn的digits数字集包括至少1700种0-9的手写数字图像。每个图像都有8x8像像素构成。每个像素的值是0-16,白色是0,黑色是16。如下图所示: % matplotlib inline from sklearn import datasets import matplotlib . pyplot as plt digits = datasets . load_digits ( ) print ( 'Digit:' , digits . target [ 0 ] ) print ( digits . images [ 0 ] ) plt . figure ( ) plt . axis ( 'off' ) plt . imshow ( digits . images [ 0 ] , cmap

线性代数(13): 特征值与特征向量

て烟熏妆下的殇ゞ 提交于 2020-01-27 07:56:07
文章目录 1 什么是特征值和特征向量 2 特征值和特征向量的相关概念 3 特征值与特征向量的性质 4 直观理解特征值与特征向量 5 numpy中求解特征值和特征向量 6 矩阵相似和背后的重要含义 7 矩阵对角化 8 矩阵对角化的应用 参考资料 注:转载请标明原文出处链接: https://xiongyiming.blog.csdn.net/article/details/103946082 1 什么是特征值和特征向量 来源: CSDN 作者: TechXYM 链接: https://blog.csdn.net/zaishuiyifangxym/article/details/103946082

动手实践用LDA模型计算两篇英文文档相似度

五迷三道 提交于 2020-01-22 14:43:12
知道原理的同学这部分可以略过直接看实践部分 什么是TD-IDF? 构造文档模型 我们这里使用 空间向量模型 来 数据化 文档内容:向量空间模型中将文档表达为一个矢量。 用特征向量(T1,W1;T2,W2;T3, W3;…;Tn,Wn)表示文档。 Ti是词条项,Wi是Ti在文档中的 重要程度 , 即将文档看作是由一组相互 独立的词条组构成 ,把T1,T2 …,Tn看成一个n 维坐标系中的坐标轴,对于每一词条,根据其重要程度赋以一定的权值Wi,作为对应坐标轴的坐标值。 权重Wi用词频表示 ,词频分为 绝对词频 和 相对词频 。 绝对词频,即用词在文本中出现的频率表示文本。 相对词频,即为归一化的词频,目前使用 最为频繁的是TF*IDF (Term Frequency * Inverse Document Frequency)TF 乘 IDF 将文档量化了之后我们很容易看出D1与Q更相似~因为D1与Q的夹角小,我们可以用余弦cos表示 分析一下这个例子: 有三个文档D1,D2,Q 这三个文档一共出现了三个词条,我们分别用T1,T2,T3表示 在文档D1中词条T1的权重为2,T2权重为3,T3权重为5 在文档D2中词条T1权重为0,T2权重为7,T3权重为1 在文档Q中词条T1权重为0,T2权重为0,T3权重为2 D1 D2 Q T1 2 3 0 T2 3 7 0 T3 3 1 2

MSER+SIFT 图像的特征向量提取

ぐ巨炮叔叔 提交于 2020-01-21 04:42:54
在做图像检索时,需要提取图像的特征向量。传统的局部特征描述子如SIFT、SURF等,如果不做别的处理,往往会得到大量的特征向量,虽然特征向量的数目越多,对图像的描述越精确,检索的准确率较高,但是这也会增加硬件成本同时也会耗费大量的计算时间。 从博主的试验结果来看,单张图384×256大小,提取出的SIFT平均有200个,如果直接和库中的数据进行相似度计算,大概要1分钟的时间。对于时间要求很高的产业,这是不能接受的。所以,在不进行压缩图像损失信息的前提下,大大减少SIFT的数目是很有必要,也是很有价值的。 在查阅了大量的资料后,博主发现在做keypoint的compute之前,用MSER 检测出的keypoint代替SIFT检测出的keypoint,可以大大减少SIFT 的数目。对MSER 有疑问的,可以在找几篇相关的博客看一看,不是很复杂。 简单的说一下MSER(最大稳定值检测),基于分水岭的概念,对图像进行二值化,阈值范围[0,255],然后不断变化阈值,变化量可以自己设置,二值图像就会经历一个从全黑0到全白255的过程,就像水位不断上升时陆地和海平面的俯瞰图。在这个过程中,有些连通区域面积随着阈值的变化量很小或基本不变,这些区域就叫MSER 。关于MSER的算法细节和具体实现就不在这说了,有兴趣的可以自己研究一下。 当用MSER检测出keypoint之后

数学基础系列(六)----特征值分解和奇异值分解(SVD)

て烟熏妆下的殇ゞ 提交于 2020-01-19 19:31:11
一、介绍   特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。   奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜,这样寥寥的几个特征,就让别人脑海里面就有一个较为清楚的认识,实际上,人脸上的特征是有着无数种的,之所以能这么描述,是因为人天生就有着非常好的抽取重要特征的能力,让机器学会抽取重要的特征,SVD是一个重要的方法。   在机器学习领域,有相当多的应用与奇异值都可以扯上关系,比如做feature reduction的PCA,做数据压缩(以图像压缩为代表)的算法,还有做搜索引擎语义层次检索的LSI(Latent Semantic Indexing)   特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,接下来会谈到特征值分解和奇异值分解的目的都是一样,就是 提取出一个矩阵最重要的特征 。   首先来看看向量的表示及基变换   向量可以表示为(3,2),实际上表示线性组合:$x(1,0)^{T}+y(0,1)^{T}$      基:(1,0)和(0,1

模式识别系列之特征降维(1)主成分分析

半城伤御伤魂 提交于 2020-01-19 11:54:20
目录 1-PCA概述 2-理论推导 2.1-向量的内积与投影: 2.2-基的表示与变换: 2.3-协方差矩阵: 2.4-PCA推导 3-几何理解 4-计算过程 4.1-样本数小于特征数时的计算 4.2-matlab代码 5-实例 参考 1-PCA概述 主成分分析是一种常用的降维方法,它不使用标签信息,通过将原始坐标空间的数据( d × 1 d\times 1 d × 1 )投影到新的正交空间( k × 1 k\times 1 k × 1 )中实现数据降维,所谓的主成分就是指数据在新空间的基的方向。PCA以方差作为信息损失衡量的标准,使得数据降维过程中信息损失最小,即降维后数据的方差要尽量大。PCA首先找到所有数据方差最大的方向,并将其作为新的坐标空间的第一个轴的方向,然后在这个方向的垂直超平面上寻找第二个方差最大的方向,并作为新坐标空间第二个轴的方向,以此类推,直到找到需要的k个方向,也就是K个主成分,显然这k个新的基方向是两两垂直的。PCA的主要过程可以用“扭动坐标轴,保留K个轴”来形容。 为什么要以方差最大为依据呢?降维是为了数据更好地表示与计算,显然我们不希望降维后的数据成了一坨,使得原本分界明显的数据掺和在一起。例如,将数据投影到一维坐标系中,显然绿色的投影更好一些,因为其分散程度大,也就是方差更大。 对n个d维数据构成的数据集 X X X ( d × n d\times

图像特征提取之HOG特征

为君一笑 提交于 2020-01-17 08:59:26
目标检测的图像特征提取之(一)HOG特征 zouxy09@qq.com http://blog.csdn.net/zouxy09 1、HOG特征: 方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中,尤其在行人检测中获得了极大的成功。需要提醒的是,HOG+SVM进行行人检测的方法是法国研究人员Dalal在2005的CVPR上提出的,而如今虽然有很多行人检测算法不断提出,但基本都是以HOG+SVM的思路为主。 (1)主要思想: 在一副图像中,局部目标的表象和形状(appearance and shape)能够被梯度或边缘的方向密度分布很好地描述。(本质:梯度的统计信息,而梯度主要存在于边缘的地方)。 (2)具体的实现方法是: 首先将图像分成小的连通区域,我们把它叫细胞单元。然后采集细胞单元中各像素点的梯度的或边缘的方向直方图。最后把这些直方图组合起来就可以构成特征描述器。 (3)提高性能: 把这些局部直方图在图像的更大的范围内(我们把它叫区间或block)进行对比度归一化(contrast-normalized),所采用的方法是:先计算各直方图在这个区间(block)中的密度