判别分析

R语言3.5 判别分析

孤街浪徒 提交于 2020-03-05 23:00:28
我的梦想就是做一条咸鱼 判别分析 多元中用于判别样本所属类型的一种统计分析方法。在已知的分类之下,对新的样本,可以利用此法选定一判别标准,以判定将该新样品放置于哪个类中。 判别分析的种类:确定性判别(Fisher型判别)、概率性判别(Bayes型判别) 确定性 1.线性判别分析 eg 今天和昨天湿温差x1及气温差x2是预报明天是否下雨的两个重要因子,试建立Fisher线性判别函数,如测得今天x1=8.1,x2=2.0试报明天是雨天还是晴天? 数据: 基本统计分析 箱线图看出,两组湿温的均值差别不大,接下来做t检验 p值>0.05,所以无显著差别 图中气温差有显著的差别 t检验,p值<0.05,有显著区别。 Logistic模型分析 注意G-1,结果发现变量x2对预测有明显影响。 线性判别分析函数lda的用法 lda(formula,data,…) formula形如y~x1+x2+…的公式框架,data数据框 做判别分析时先画图直观看一下数据 图中看可以做判别分析。 做Fisher判别分析需要调用MASS包 Fisher线性判别函数 a1=-0.1035 a2=0.2248 进一步做判断 其中有两个判断错误。 符合率是0.9 两总体距离判别 马氏距离: 判别准则: 当方差相等时,距离判别等于Fisher判别 当方差不相等时不能用Fisher判别要有二次判别函数,qda函数的用法

【温故而知新】线性判别分析(Linear Discriminant Analysis)

余生长醉 提交于 2020-02-05 00:10:33
线性判别分析(Linear Discriminant Analysis, LDA)是一种经典的线性分类方法。 LDA的基本思想:给定训练数据集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能的接近,不同类样本的投影点尽可能远离;在对新来样本进行分类时,首先将其投影到直线上,再根据投影点的位置来判断样本所属的类别。即:类内小,类间大("高内聚,松耦合") 给定数据集 ,在这里我们将 记为 类, 记为 类,则 , , , , 样本点在直线 上的投影: ,此处令 训练样本的均值: 训练样本的方差: 对于 类样本的均值: 对于 类样本的方差: 对于 类样本的均值: 对于 类样本的方差: 类间: ,类内: 目标损失函数: 综上可知, 其中, 为between-class 类间方差(维度:p*p), 为within-class 类内方差(维度:p*p) 令 可得, 两边同时乘以 可得 这里 的维度为p*1,所以 维度[1*p][p*p][p*1],故 , 同理 ; , 这里 的维度为p*1, 则 的维度为[1*p][p*1], 故 如果 是单位矩阵或者对角矩阵,各项同性, ,则 完, 来源: CSDN 作者: caicaiatnbu 链接: https://blog.csdn.net/caicaiatnbu/article/details/104173227

[白话解析] 深入浅出最大熵模型

。_饼干妹妹 提交于 2020-01-31 16:35:42
[白话解析] 深入浅出最大熵模型 0x00 摘要 本文将尽量使用易懂的方式,尽可能不涉及数学公式,而是从整体的思路上来看,运用感性直觉的思考来解释最大熵模型。并且从名著中找了几个具体应用场景来帮助大家深入这个概念。 0x01 背景概念 1. 什么是熵? 熵这个概念可以从多个角度来理解。 1.1 从物理学角度理解熵 熵最早来原于物理学。德国物理学家鲁道夫·克劳修斯首次提出熵的概念,用来表示任何一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。即,熵是表示物质系统状态的一种度量,用它来表征系统的无序程度。 熵越大,系统越无序,意味着系统结构和运动的不确定和无规则; 熵越小,系统越有序,意味着系统具有确定和有规则的运动状态。 1.2 从系统复杂度理解熵 信息熵还可以作为一个系统复杂程度的度量,即物质系统有序化,组织化,复杂化状态的一种度量。 如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。 如果一个系统越简单,出现情况种类很少(极端情况为1种情况,那么对应概率为1,对应的信息熵为0),此时的信息熵较小。 熵越大则该系统不确定性就越大,该系统未来发展就存在越多的可能性。 1.3 熵的推导&定义 熵的定义是:𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙)) 其中,𝑝(𝑥)代表随机事件𝑥的概率,H(X) 就被称为随机变量 x 的熵,它是表示随机变量不确定的度量

task5 贝叶斯

爱⌒轻易说出口 提交于 2020-01-26 08:33:15
知识点梳理¶ 相关概念(生成模型、判别模型) 先验概率、条件概率 贝叶斯决策理论 贝叶斯定理公式 极值问题情况下的每个类的分类概率 下溢问题如何解决 零概率问题如何解决? 优缺点 sklearn 自带代码块 from sklearn . naive_bayes import GaussianNB from sklearn . datasets import load_iris import pandas as pd from sklearn . model_selection import train_test_split iris = load_iris ( ) X_train , X_test , y_train , y_test = train_test_split ( iris . data , iris . target , test_size = 0.2 ) clf = GaussianNB ( ) . fit ( X_train , y_train ) print ( "Classifier Score:" , clf . score ( X_test , y_test ) ) 相关概念 生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中

LDA线性判别

自闭症网瘾萝莉.ら 提交于 2020-01-19 10:27:03
LDA线性判别 LDA线性判别式分析又称为Fisher线性判别,是一种有监督的降维算法,用于针对有类别的样本进行降维,使得降维后类与类之间的分割依然很明显,可以说,LDA从高维特征提取出了最具有类间判别能力低维特征,LDA与PCA分类的区别如图1所示,红色与蓝色代表不同类别的样本。                    图1   LDA降维的主要目标在于寻找一个向量 u u u ,使得样本经过向量 u u u 降维后能够最小化类内距离,最大化类间距离。为了实现该目标,计算过程如下:   假设样本共有K类,每类样本的个数为N1,N2,…NK。令 x j i x_j^i x j i ​ 为第 j 类的第 i 个样本, m j m_j m j ​ 为第 j 类的中心, D j D_j D j ​ 为第 j 类的点集, x j i ~ \widetilde{x_j^i} x j i ​ ​ 为 x j i x_j^i x j i ​ 经过向量 u u u 降维之后的坐标, m j ~ \widetilde{m_j} m j ​ ​ 为 m j m_j m j ​ 经过向量 u u u 降维之后的坐标,设向量 u u u 的模长为 a a a 。 为第 j 类的第 i 个样本 。 计算类内距离: 第 j 类的类内距离为: S j = 1 N j ∑ x j i ∈ D j ( x j i ~

判别模型、生成模型与朴素贝叶斯方法

主宰稳场 提交于 2020-01-14 02:17:18
转载时请注明来源: http://www.cnblogs.com/jerrylead 1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为 ,在参数 确定的情况下,求解条件概率 。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后根据绵羊的特征学习出一个绵羊模型。然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。形式化表示为求 (也包括 ,y是模型结果,x是特征。 利用贝叶斯公式发现两个模型的统一性: 由于我们关注的是y的离散值结果中哪个概率大(比如山羊概率和绵羊概率哪个大),而并不是关心具体的概率,因此上式改写为: 其中 称为后验概率, 称为先验概率。 由 ,因此有时称判别模型求的是条件概率,生成模型求的是联合概率。 常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。 常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。 这篇博客较为详细地介绍了两个模型:

判别模型、生成模型与朴素贝叶斯方法

可紊 提交于 2020-01-14 02:14:22
转载时请注明来源: http://www.cnblogs.com/jerrylead 1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为 ,在参数 确定的情况下,求解条件概率 。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。换一种思路,我们可以根据山羊的特征首先学习出一个山羊模型,然后根据绵羊的特征学习出一个绵羊模型。然后从这只羊中提取特征,放到山羊模型中看概率是多少,再放到绵羊模型中看概率是多少,哪个大就是哪个。形式化表示为求 (也包括 ,y是模型结果,x是特征。 利用贝叶斯公式发现两个模型的统一性: 由于我们关注的是y的离散值结果中哪个概率大(比如山羊概率和绵羊概率哪个大),而并不是关心具体的概率,因此上式改写为: 其中 称为后验概率, 称为先验概率。 由 ,因此有时称判别模型求的是条件概率,生成模型求的是联合概率。 常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件随机场、神经网络等。 常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。 这篇博客较为详细地介绍了两个模型:

降维技术2-线性判别分析(LDA)

三世轮回 提交于 2020-01-10 23:40:41
线性判别分析(Linear Discriminant Analysis),简称LDA,是一种经典的线性学习方法。在二分类问题上最早由Fisher提出,也称"Fisher判别分析"。 在主成分分析原理总结中,我们对降维算法PCA进行了总结。这里的LDA是另一种经典的的降维算法。使用PCA进行降维,我们没有将类别考虑进去,属于无监督学习。而LDA是一种监督学习的降维技术,即它的每个样本是有类别输出的。 LDA的思想 给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别。 用一句话概括就是:投影后类内方差最小,类间方差最大。 瑞利商与广义瑞利商(Rayleigh quotient) 瑞利商定义:瑞利商是指这样的函数 \(R(A,x)\) : \[R(A,x)=\dfrac{x^HAx}{x^Hx}\] 其中 \(x\) 为非零向量,而A为 \(n\times n\) 的Hermitan矩阵。所谓的Hermitan矩阵就是它的共轭转置等于它本身,属于推广的对称矩阵,即 \(A^H=A\) .如果A是实对称阵, \(A^T=A\) 即为Hermitan矩阵。 瑞利商 \(R(A,x)\) 有 一个非常重要的性质,即它的最大值等于矩阵A的最大特征值

Generative Adversarial Nets[Introduction]

|▌冷眼眸甩不掉的悲伤 提交于 2020-01-02 08:10:57
0. 背景 通过阅读书籍《Pro Deep Learning with TensorFlow: A Mathematical Approach to Advanced Artificial Intelligence in Python》的第6章第4节的《Generative Adversarial Networks》,知道了不少前置知识。 GAN中蕴含了基于游戏论中的零和(zero-sum)游戏的理论。GAN有2个网络,一个生成器(G)和一个判别器(D),两者互相竞争。生成器为了 愚弄 判别器使得判别器无法区分输入的数据是来自真实数据还是来自它生成的假数据;而生成器是为了学习 判别 当前的数据是来自真实数据还是来自G造假的数据。这个游戏论问题的最优解就是他俩达到了nash平衡,即G生成的假数据的分布和原始真实数据的分布是基本一致的,而且当前判别器对真实数据和造假数据输出的概率只能是0.5。 纳什平衡有这样的前提:决策圈中的个体是独立的,不合作,不横向沟通,然后每个个体在猜测决策圈里其他人的选择后,做出自己认为最优的决策。这样的决策简单组合起来,就叫纳什平衡。纳什均衡点的通俗说明就是就说当所有人都不可能通过改变自己策略来获得更加高的收益时,此时这个策略组合达为纳什平衡。 来自这里 假设真实数据的分布是 \(P_x\) ;假数据是先从一个先验分布为 \(P_z\) 采样得到噪音数据z

关于fisher判别的一点理解

两盒软妹~` 提交于 2019-12-25 04:55:28
最近一个朋友问这方面的一些问题,其实之前也就很粗略的看了下fisher,真正帮别人解答问题的时候才知道原来自己也有很多东西不懂。下面小结下自己对fisher判别的理解: 其实fisher和PCA差不多,熟悉PCA的人都知道,PCA其实就是在寻找一个子空间。这个空间怎么来的呢,先求协方差矩阵,然后求这个协方差矩阵的特征空间(特征向量对应的空间),选取最大的特征值对应的特征向量组成特征子空间(比如说k个,相当于这个子空间有k维,每一维代表一个特征,这k个特征基本上可以涵盖90%以上的信息)。那么我们把样本投影在这个子空间,原来那么多维的信息就可以用这k维的信息代替了,也就是说降维了。至于PCA为啥要用求协方差矩阵然后求特征子空间的方法,这个数学上有证明,记得在某篇文章上看过,有兴趣的可以找找,看看证明。 那么fisher空间又是怎么一回事呢,其实fisher判别和PCA是在做类似的一件事,都是在找子空间。不同的是,PCA是找一个低维的子空间,样本投影在这个空间基本不丢失信息。而fisher是寻找这样的一个空间,样本投影在这个空间上,类内距离最小,类间距离最大。那么怎么求这个空间呢,类似于PCA,求最大特征值对应的特征向量组成的空间。 当我们取最大几个特征值对应的特征向量组成特征空间时(这里指出,最佳投影轴的个数d<=c-1,这里c是类别数),最佳投影矩阵如下: