协方差

PCA的一些理解

生来就可爱ヽ(ⅴ<●) 提交于 2020-01-20 18:11:30
1. PCA的原理理解 PCA 要求原始数据经过新的线性变换,尽可能保留原始数据大部分的信息;PCA的变化要求,找到一组新的基(基之间内积为0,且为了计算方便,这组基经过标准化,即为标准正交基),进行变换,将原始数据投影到新的基上,进行变换,为了保留原始数据大部分的信息,因此希望投影尽可能分散;故越分散,保留原始数据信息越多; 与此同时,越分散,导致这个主成分内部,方差越大;因此方差越大的主成分保留原始数据信息越多,故根据方差从大到小选出第一大主成分、第二大主成分,。。。。。。 2.PCA构建协方差矩阵、相关系数矩阵? 3.PCA最后的形式,步骤 总结一下PCA的算法步骤: 设有m条n维数据。 1)将原始数据按列组成n行m列矩阵X 2)将X的每一l列(代表一个属性字段)进行零均值化,即减去这一列的均值 3)求出协方差矩阵 4)求出协方差矩阵的特征值及对应的特征向量 5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P 6)即为降维到k维后的数据 来源: CSDN 作者: 滴水-石穿 链接: https://blog.csdn.net/sinat_34971932/article/details/103381603

模式识别系列之特征降维(1)主成分分析

半城伤御伤魂 提交于 2020-01-19 11:54:20
目录 1-PCA概述 2-理论推导 2.1-向量的内积与投影: 2.2-基的表示与变换: 2.3-协方差矩阵: 2.4-PCA推导 3-几何理解 4-计算过程 4.1-样本数小于特征数时的计算 4.2-matlab代码 5-实例 参考 1-PCA概述 主成分分析是一种常用的降维方法,它不使用标签信息,通过将原始坐标空间的数据( d × 1 d\times 1 d × 1 )投影到新的正交空间( k × 1 k\times 1 k × 1 )中实现数据降维,所谓的主成分就是指数据在新空间的基的方向。PCA以方差作为信息损失衡量的标准,使得数据降维过程中信息损失最小,即降维后数据的方差要尽量大。PCA首先找到所有数据方差最大的方向,并将其作为新的坐标空间的第一个轴的方向,然后在这个方向的垂直超平面上寻找第二个方差最大的方向,并作为新坐标空间第二个轴的方向,以此类推,直到找到需要的k个方向,也就是K个主成分,显然这k个新的基方向是两两垂直的。PCA的主要过程可以用“扭动坐标轴,保留K个轴”来形容。 为什么要以方差最大为依据呢?降维是为了数据更好地表示与计算,显然我们不希望降维后的数据成了一坨,使得原本分界明显的数据掺和在一起。例如,将数据投影到一维坐标系中,显然绿色的投影更好一些,因为其分散程度大,也就是方差更大。 对n个d维数据构成的数据集 X X X ( d × n d\times

方差、标准差、协方差和Pearson相关系数及其间的关系

你。 提交于 2020-01-13 01:13:47
方差、协方差和Pearson相关系数在机器学习的理论概念中经常出现,本文主要理一下这几个概念及其相互间的关系。 (一)方差: 方差是每个样本值与全体样本值的平均数之差的平方值的平均数,公式如下: 上式中mui为样本均值。方差可以反应样本数据的离散程度,由上式可以看出,方差越大,样本离散程度也越大。机器学习中,如果某一特征值的离散程度很小,即表示该特征取值很少,可以认为样本在这个特征上基本没有差异,那这个特征对于样本区分没有什么作用,可以将这个特征去除,从而做到特征选择。 (二)标准差: 标准差即方差的开平方,不展开了,下面是公式: (三)协方差: 协方差描述的是两个变量间的相关性,计算公式如下: 也可以用以下公式表示,两者是等价的: cov(X, Y) = E[(X-E[X])(Y-E[Y])] 上式中E[ ]表示求期望,其中E[X]为X特征期望或均值,E[Y]为Y特征期望或均值。 对比方差和协方差的公式可以看出两者很像,但方差的结果是大于等于0的,当等于0时,说明样本的x特征取值唯一,反应的样本的x特征的离散程度; 协方差的取值则可以大于零也可以小于零,当大于零时,说明对应的两个变量x和y与其均值相比都同大于或同小于,即两个变量的变化趋势相同(正相关);当小于零时,说明对应的两个变量x和y不同时大于或小于其均值,即两个变量的变化趋势相反(负相关);而当均方根接近零时

概率论与数理统计(一)

南楼画角 提交于 2020-01-06 23:17:53
还不会的地方: 大数定律,第六章, 3,4章。 连续型函数的概率密度函数 离散型的比较好求,直接带值就可以,重点是连续型的。函数的概率密度函数,就是告诉你X的分布,让你求Y=g(X)的分布。 公式法求一维概率密度函数 首先根据x的区间求出y的区间, 然后根据y=g(x)求出其反函数x=h(y)和x的导数。 把x=h(y)带到X的概率密度函数里边,然后再乘一个导数的绝对值,就是Y的概率密度函数。 不过用公式法必须满足y=g(x)是处处可导的单调函数,如果不是的话,要根据定义去求。 卷积公式求二维概率密度函数 首先根据Z=f(X,Y)用x和z表示y,然后求一下y关于z的偏导。 首先一个负无穷到正无穷的积分,然后是概率密度函数,用z和 x替换y,然后乘一个偏导的绝对值,这个积分自然是关于x积分。 随机变量的数字特征 概率论的本质是研究随机变量,那么怎样研究随机变量呢? 一个方面就是随机变量的数字特征:期望,方差,协方差。 方差 怎样求方差呢?一个是根据他的定义:Dx=E(X-E(X)) 2 。就是每一个值与均值的差的平方,求期望。遇到一些函数的方差,就用方差的性质: D( C )=0 D(aX+bY=c)=a 2 X+b 2 Y;条件是X和Y要相互独立。 协方差与相关系数 定义:(X-Ex)(Y-Ey)的均值,相关系数是协方差的基础上除以一个根号下DxDy。 来源: CSDN 作者:

主成分分析

白昼怎懂夜的黑 提交于 2020-01-06 16:08:45
PCA的思想是将n维特征映射到K维上(k < n),这k维是全新的正交特征。这k维特征成为主成分,是重新构造出来的k维特征,而不是简单的从n维特征中去除其余 n-k维特征。 (1)计算数据的协方差矩阵: https://blog.csdn.net/Mr_HHH/article/details/78490576 (2) 计算数据协方差矩阵的特征值和特征向量 python 样例代码: # coding:UTF-8 import os import numpy as np # 原始的数据 x = [0.69, -1.31, 0.39, 0.09, 1.29, 0.49, 0.19, -0.81, -0.31, -0.71] y = [0.49, -1.21, 0.99, 0.29, 1.09, 0.79, -0.31,-0.81, -0.31, -1.01] npx = np.array(x) npy = np.array(y) # 去除均值 ma = np.matrix([x - npx.mean(), y - npy.mean()]) print(u"协方差矩阵") cov = ma.dot(ma.T) print("------------------下面计算原始矩阵的特征值和特征向量-----------------------") eigenvalue

【LDA】线性判别式分析

邮差的信 提交于 2020-01-03 06:57:05
1. LDA是什么 线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典 算法 ,在1996年由Belhumeur引入模式识别和人工 智能 领域。 基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有 最大的类间距离 和 最小的类内距离 ,即模式在该空间中有最佳的可分离性。 LDA的目标: 可以看到两个类别,一个绿色类别,一个红色类别。左图是两个类别的原始数据,现在要求将数据从二维降维到一维。直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下降。右图映射到的直线就是用LDA方法计算得到的,可以看到,红色类别和绿色类别在映射之后之间的距离是最大的,而且每个类别内部点的离散程度是最小的(或者说聚集程度是最大的)。 2. LDA的一些说明 第一,降维后的维度是多少? PCA降维是直接和数据维度相关的,比如原始数据是n维的,那么PCA后,可以任意选取1维、2维,一直到n维都行(当然是对应特征值大的那些)。 LDA 降维是直接和类别的个数相关的,与数据本身的维度没关系,比如原始数据是n维的,一共有C个类别,那么LDA降维之后,一般就是1维,2维到C-1维进行选择

数学期望、方差、标准差、协方差

a 夏天 提交于 2019-12-29 01:51:46
数学期望 数学期望E(x)完全由随机变量X的概率分布所确定,若X服从某一分布,也称E(x)是这一分布的数学期望。 数学期望的定义是实验中每次可能的结果的概率乘以其结果的总和。 离散型随机量的数学期望 定义:离散型随机变量的所有可能取值 xixi 与其对应的概率 P(xi) 乘积的和为该离散型随机量的数学期望,记为 E(X)。 公式: E(X)=∑i=1nxiPi 连续型随机量的数学期望 定义:假设连续型随机变量 XX的概率密度函数为 f(x),如果积分∫+∞−∞xf(x)dx绝对收敛,则称这个积分的值为连续型随机量的数学期望,记为 E(X)。 公式: E(X)=∫+∞−∞xf(x)dx 数学期望的性质 设C为常数: E(C)==C 设C为常数: E(CX)==CE(X) 加法:E(X+Y)==E(X)+E(Y) 当X和Y相互独立时,E(XY)=)=E(X)E(Y) (主意,X和Y的相互独立性可以通过下面的“协方差”描述) 数学期望的意义 根据“大数定律”的描述,这个数字的意义是指随着重复次数接近无穷大时,数值的算术平均值几乎肯定收敛于数学期望值,也就是说数学期望值可以用于预测一个随机事件的平均预期情况。 方差 数学期望给出了随机变量的平均大小,现实生活中我们还经常关心随机变量的取值在均值周围的散布程度,而方差就是这样的一个数字特征。 方差有两个定义,一个是统计学的定义

PCA主成分分析

我是研究僧i 提交于 2019-12-28 00:23:34
PCA的流程: 代码参考: https://www.cnblogs.com/clnchanpin/p/7199713.html 协方差矩阵的计算 https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html 思想: https://www.cnblogs.com/clnchanpin/p/7199713.html 求解协方差矩阵的特征值和特征向量 为什么PCA第一步是进行去掉数据中的平均值? 因为每列数据减去该列的平均值后才能进行协方差计算。 按照特征值的大小进行排序,用到了numpy 中argsort函数 https://blog.csdn.net/maoersong/article/details/21875705 这篇对numpy中的matrix 总结的很好 https://www.cnblogs.com/sumuncle/p/5760458.html 三、特征值和特征向量的应用实例 1、主成分分析(Principle Component Analysis, PCA) (1)方差、协方差、相关系数、协方差矩阵 方差: 协方差: , , **方差是衡量单变量的离散程度,协方差是衡量两个变量的相关程度(亲疏),协方差越大表明两个变量越相似(亲密),协方差越小表明两个变量之间相互独立的程度越大。 相关系数:

白噪声

≡放荡痞女 提交于 2019-12-26 12:18:43
【推荐】2019 Java 开发者跳槽指南.pdf(吐血整理) >>> 白噪声 ,是一种 功率谱密度 为常数的 随机信号 或 随机过程 。即,此信号在各个频段上的 功率 是一样的。由于 白光 是由各种频率(颜色)的单色光混合而成,因而 此信号的这种具有平坦功率谱的 性质被称作是“白色的”,此信号也因此被称作白噪声。相对的,其他不具有这一性质的 噪声 信号被称为 有色噪声 。 理想的白噪声具有无限 带宽 ,因而其能量是无限大,这在现实世界是不可能存在的。实际上,我们常常将 有限带宽 的 平整信号 视为白噪声,以方便进行数学分析。 1. 统计特性 白噪声过程现实实例 术语白噪声也常用于表示在相关空间的 自相关 为0的空域噪声信号,于是信号在 空间频率 域内就是“白色”的,对于角频率域内的信号也是这样,例如夜空中向各个角度发散的信号。右面的图片显示了计算机产生的一个有限长度的离散时间白噪声过程。 需要指出,相关性和概率分布是两个不相关的概念。“白色”仅意味着信号是不相关的,白噪声的定义除了要求均值为零外并没有对信号应当服从哪种概率分布作出任何假设。因此,如果某白噪声过程服从 高斯分布 ,则它是“高斯白噪声”。类似的,还有 泊松白噪声 、 柯西白噪声 等。人们经常将高斯白噪声与白噪声相混同,这是不正确的认识。根据 中心极限定理 ,高斯白噪声是许多现实世界过程的一个很好的近似

协方差矩阵

删除回忆录丶 提交于 2019-12-26 07:31:05
一、统计学的基本概念 统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。 以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是n,是因为这样能使我们以较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 二、为什么需要协方差 标准差和方差一般是用来描述一维数据的,但现实生活中我们常常会遇到含有多维数据的数据集,最简单的是大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子的欢迎程度是否存在一些联系。协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义: 来度量各个维度偏离其均值的程度,协方差可以这样来定义: 协方差的结果有什么意义呢?如果结果为正值,则说明两者是正相关的(从协方差可以引出