主成分分析

吴恩达机器学习视频笔记——8

孤街醉人 提交于 2019-12-11 15:28:28
10、支持向量机 10.1、大边界的直观理解 支持向量机 ( Support VectorMachine ) ,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。 10.2、核函数 10.3、应用SVM 11、聚类 11.1、无监督机器学习 11.2、K-Means(K均值算法) 11.3优化目标 11.4、随机初始化 11.5、选择聚类数 12、降维 12.1、动机一:数据压缩 12.2、动机二:数据可视化 12.3、主成分分析问题 12.4、主成分分析算法 12.5、选择主成分的数量 12.6、重建的压缩表示 12.7、主成分分析法的应用建议 本博客主要引用文章如下: 作者:黄海广 链接:斯坦福大学2014机器学习教程个人笔记(V5.4) 来源:PDF 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 来源: https://www.cnblogs.com/AlexWangle-one/p/12022673.html

主成分分析(PCA)原理详解

我的未来我决定 提交于 2019-12-10 10:07:52
个人分类: 机器学习与Python 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhongkelee/article/details/44064401 转载请声明出处: http://blog.csdn.net/zhongkelee/article/details/44064401 一、PCA简介 1. 相关背景 上完陈恩红老师的《机器学习与知识发现》和季海波老师的《矩阵代数》两门课之后,颇有体会。最近在做主成分分析和奇异值分解方面的项目,所以记录一下心得体会。 在许多领域的研究与应用中,往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。多变量大样本无疑会为研究和应用提供了丰富的信息,但也在一定程度上增加了数据采集的工作量,更重要的是在多数情况下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性,同时对分析带来不便。如果分别对每个指标进行分析,分析往往是孤立的,而不是综合的。盲目减少指标会损失很多信息,容易产生错误的结论。 因此需要找到一个合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失,以达到对所收集数据进行全面分析的目的。由于各变量间存在一定的相关关系,因此有可能用较少的综合指标分别综合存在于各变量中的各类信息。主成分分析与因子分析就属于这类降维的方法。 2. 问题描述

主成分分析(PCA)原理总结

穿精又带淫゛_ 提交于 2019-12-10 04:13:48
    主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。 1. PCA的思想     PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。具体的,假如我们的数据集是n维的,共有m个数据$(x^{(1)},x^{(2)},...,x^{(m)})$。我们希望将这m个数据的维度从n维降到n'维,希望这m个n'维的数据集尽可能的代表原始数据集。我们知道数据从n维降到n'维肯定会有损失,但是我们希望损失尽可能的小。那么如何让这n'维的数据尽可能表示原来的数据呢?     我们先看看最简单的情况,也就是n=2,n'=1,也就是将数据从二维降维到一维。数据如下图。我们希望找到某一个维度方向,它可以代表这两个维度的数据。图中列了两个向量方向,$u_1$和$u_2$,那么哪个向量可以更好的代表原始数据集呢?从直观上也可以看出,$u_1$比$u_2$好。     为什么$u_1$比$u_2$好呢?可以有两种解释,第一种解释是样本点到这个直线的距离足够近,第二种解释是样本点在这个直线上的投影能尽可能的分开。     假如我们把n'从1维推广到任意维,则我们的希望降维的标准为

机器学习中的特征——特征选择的方法以及注意点(转)

旧巷老猫 提交于 2019-12-07 19:43:08
转自 https://blog.csdn.net/google19890102/article/details/40019271 一、特征选择和降维 1、相同点和不同点 特征选择和降维有着些许的相似点,这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目;但是两者所采用的方式方法却不同:降维的方法主要是通过属性间的关系,如组合不同的属性得新的属性,这样就改变了原来的特征空间;而特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。 2、降维的主要方法 Principal Component Analysis(主成分分析),详细见“ 简单易学的机器学习算法——主成分分析(PCA) ” Singular Value Decomposition(奇异值分解),详细见“ 简单易学的机器学习算法——SVD奇异值分解 ” Sammon's Mapping(Sammon映射) 二、特征选择的目标 引用自吴军《数学之美》上的一句话:一个正确的数学模型应当在形式上是简单的。构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,当然此时的挑选出的特征就应该能够对问题有更好的解释,所以特征选择的目标大致如下: 提高预测的准确性 构造更快,消耗更低的预测模型 能够对模型有更好的理解和解释 三、特征选择的方法

MATLAB感悟(4)--主成分分析

流过昼夜 提交于 2019-12-06 19:33:00
目的描述 ​ 出于模型的需要,我们的团队选择做一次 主成分分析 ,通常这部分在队伍中是会有同学专门负责这块的,至于为什么笔者就不在这里多说了。 解决思路 ​ 在MATLAB中封装了有关因子分析的方法-- PCA ,读者可以通过 help 命令来查看如何调用这个方法。 需要读者注意的是,在进行主成分分析的时候可能会出现海伍德现象(heywood),可惜的是,笔者并没有找到关于解决这个问题的文献,如果有读者知道怎样解决,劳驾告诉我一声,谢谢。 function [FData_M,LOCATION,Lab]=Split_PCA_Data(title,F_title,DataSet,index) %index 表示要提取的Lab有多少个 LOCATION=[]; Lab={}; NUM=1; for i=1:index OBJECT=F_title{i,1}; for j=1:584 MSN=title{1,j}; if j~=1 if MSN==OBJECT LOCATION(:,NUM)=j; Lab(i,1)={MSN}; Lab(i,2)={OBJECT}; NUM=NUM+1; end end end FData_M=DataSet(:,LOCATION); end function [FData_M,LOCATION,Lab]=Split_Factor_Data(title,F

PCA(主成分分析)方法浅析

自闭症网瘾萝莉.ら 提交于 2019-12-06 05:23:45
PCA(主成分分析)方法浅析 降维、数据压缩 找到数据中最重要的方向:方差最大的方向,也就是样本间差距最显著的方向 在与第一个正交的超平面上找最合适的第二个方向 PCA算法流程 上图第一步描述不正确,应该是去中心化,而不是中心化 具体来说,投影这一环节就是:将与特征值对应的k个特征向量分别作为行向量组成特征向量矩阵P 直接乘以特征变量就好。原来是二维数据,降维之后只有一维。 我们想保留几个维度的特征,就留下几个特征值和对应的特征向量。 来源: https://www.cnblogs.com/jiading/p/11963861.html

PCA主成分分析(最大投影方差)

江枫思渺然 提交于 2019-12-05 01:09:46
PCA简介: 从n维数据中提取最能代表这组数据的m个向量,也就是对数据进行降维(n->m),提取特征。 目标: 找到一个向量 \(\mu\) ,使n个点在其上的投影的方差最大(投影后的数据越不集中,就说明每个向量彼此之间包含的相似信息越少,从而实现数据降维) 前提假设: 总的数据: \[A = (x_1, x_2, \cdots , x_n)\] \(X\) 的协方差: \[C = Cov(X) = \frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})(x_i-\overline{x})^T\] 向量 \(\mu\) : \[|\mu| = 1 \Rightarrow \mu^T\mu = 1\] 证明: 易知 \(x_i\) 在 \(\mu\) 上的投影为 \[(x_i-\overline{x})^T\cdot\mu\] 因为 \((x_i-\overline{x})\) 均值为0, 所以记其方差 \(J\) 为 \[\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^T\cdot\mu)^2\] 又因为上式平方项中为标量,故可以将 \(J\) 改写为 \[\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^T\cdot\mu)^T\cdot(x_i-\overline{x})^T

主成分分析PCA

≯℡__Kan透↙ 提交于 2019-12-03 01:26:12
原文链接 PCA简介 如图所示,这是一个二维点云,我们想找出方差最大的方向,如右图所示,这个最大方向的计算,就是PCA做的事情。在高维情况下,PCA不光可以计算出最大方差方向,还可以计算第二大,第三大方向等。 PCA(Principal Components Analysis),中文名也叫主成分分析。它可以按照方差大小,计算出相互正交的方向,这些方向也叫主方向。它常用于对高维数据进行降维,也就是把高维数据投影到方差大的几个主方向上,方便数据分析。 PCA的计算很简单: 第一步计算数据的协方差矩阵:Cov = ∑ (Di – C) X (Di – C),其中Di是第i个数据,C是数据的平均值 然后计算协方差矩阵的特征值和特征向量,特征向量就是主方向,按照特征值的大小,从大到小依次排列 下面介绍PCA的一些应用。 三维人体模型参数化 如图是一些拟合好的三维人体模型。它是通过扫描了几千个人体,然后用人体模板网格去拟合这些扫描数据得到的。这些拟合后的人体网格,有相同的网格拓扑结构。 假设人体网格有N个顶点,则一个人体的几何可以由3N个浮点数来表示,记这个向量为Si。 如果有K个人体数据,记{Si}的平均向量为ES,Ui = Si - ES,那么{Ui}刻画了这K个人体几何的变化量。 这个一个高维向量,我们可以用PCA对{Ui}进行降维,比如降到k维。设PCA的主方向为D1, D2, ...

机器学习之主成分分析PCA

馋奶兔 提交于 2019-12-03 00:47:00
PCA(主成分分析)是一种常见的数据降维算法,其核心思想是找到一个维数更低的仿射集,然后将所有的数据点在其上做投影,以得到新的在更低维空间中的点作为新的数据。那么问题来了,如何选择这样的仿射集,以降维的同时不至于损失过多的信息呢?一般来说有两种思路: 最近重构性:样本点到该仿射集的距离要尽量小; 最大可分性:样本点到该放射集的投影要尽可能分开。 下面我们构建数学模型,并且说明,两种思路其实是一回事。 这里的数学推导是本人自己作为练习详细给出的,因为大多数机器学习的书基本上是含糊其辞地混过去了一些细节,让人怀疑作者本身有没有搞明白。 1.数学推导: 首先强调一下,所有推导中出现的向量若没有指出其为行向量则均是列向量。现在的待求解问题是: 问题 : 已知数据集 $D=\lbrace x_{i}\in\mathbb{R}^{M}\rbrace_{i=1}^{N}$, 现在我们需要找到一个$m$维仿射集($m<M$),使得$D$中的点到该仿射集距离之和最小。 我们知道,任何$m$维仿射集$H$可以表示为如下形式: \begin{equation}H=\lbrace{Wu+b}\mid u\in\mathbb{R}^{m}\rbrace\end{equation} 其中矩阵$W\in\mathcal{M}_{M\times m}$满足:$W^{T}W=Id$, $b\in\mathbb{M}

从主成分分析(PCA)到奇异值分解(SVD)

匿名 (未验证) 提交于 2019-12-03 00:41:02
主成分分析(principal factor analysis),简称PCA,是机器学习中非常常见的压缩降维方法。为什么需要压缩降维?是由于高维的样本本身存在冗余、稀疏的特点,直接把高维样本用于拟合或者模式识别,极其容易出现过拟合。而在处理实际问题时,与学习任务相关的也许仅是高维样本的某个低维分布,因而需要降维。(举个例子,如……) PCA的降维思想是,在高维的样本空间中,寻找一个低维的超平面,把所有高维样本投影于此超平面上,得到低维样本,并且使投影误差最小,或者使投影得到的样本最大可分。 紧接着上述提到的两种性质,在描述PCA的降维思想时,有以下两种定义方式: 最小误差形式 最大方差形式 可以从数学推导上证明,两种定义方式最终导出的结果等价,可以得到一样的算法。(两种方法的数学推导过程有时间再补充……) (算法流程待补充……) 总结来说,主成分分析涉及到计算数据集的均值 x x 和协方差矩阵 S S ,然后寻找协方差矩阵的对应于 M M 个最大特征值的 M M 个特征向量,从而得到投影矩阵。 PCA与SVD的关系主要体现在求解特征向量的过程。在一般介绍PCA算法原理的资料中,均是要先求得样本的协方差矩阵,然后从协方差矩阵中求解得特征值和特征向量。然而,对于归一化的样本,协方差矩阵 S = X X T S = X X T (待补充数学证明),而某些SVD的实现方法可以从样本矩阵 X