概率分布

机器学习-LDA主题模型笔记

左心房为你撑大大i 提交于 2019-12-01 02:05:22
LDA常见的应用方向:   信息提取和搜索(语义分析);文档分类/聚类、文章摘要、社区挖掘;基于内容的图像聚类、目标识别(以及其他计算机视觉应用);生物信息数据的应用; 对于朴素贝叶斯模型来说,可以胜任许多文本分类问题,但无法解决语料中一词多义和多词一义的问题--它更像是词法分析,而非语义分析。如果使用词向量作为文档的特征,一词多义和多词一义会造成计算文档间相似度的不准确性。LDA模型通过 增加“主题” 的方式,一定程度的解决上述问题:   一个词可能被映射到多个主题中,即,一词多义。多个词可能被映射到某个主题的概率很高,即,多词一义。 LDA涉及的主要问题 1)共轭先验分布 2)Dirichlet分布 3)LDA模型   Gibbs采样算法学习参数 共轭先验分布   由于x为给定样本,P(x)有时被称为“证据”,仅仅是归一化因子,如果不关心P(θ|x)的具体值,只考察θ取何值时后验概率P(θ|x)最大,则可将分母省去。         在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。 Dirichlet分布   在学习Dirichlet分布之前先复习以下二项分布的最大似然估计:   投硬币试验中,进行N次独立试验,n次朝上,N-n次朝下。假定朝上的概率为p

deep_learning_MNIST数据集

ぐ巨炮叔叔 提交于 2019-11-30 16:02:59
Code_link: https://pan.baidu.com/s/1dshQt57196fhh67F8nqWow 本文是为既没有机器学习基础也没了解过TensorFlow的码农、序媛们准备的。如果已经了解什么是MNIST和softmax回归本文也可以再次帮助你提升理解。在阅读之前,请先确保在合适的环境中安装了TensorFlow( windows安装请点这里 ,其他版本请官网找),适当编写文章中提到的例子能提升理解。 首先我们需要了解什么是“ MNIST ”? 每当我们学习一门新的语言时,所有的入门教程官方都会提供一个典型的例子——“Hello World”。而在机器学习中,入门的例子称之为MNIST。 MNIST是一个简单的视觉计算数据集,它是像下面这样手写的数字图片: 每张图片还额外有一个标签记录了图片上数字是几,例如上面几张图的标签就是:5、0、4、1。 本文将会展现如何训练一个模型来识别这些图片,最终实现模型对图片上的数字进行预测。 首先要明确,我们的目标并不是要训练一个能在实际应用中使用的模型,而是通过这个过程了解如何使用TensorFlow完成整个机器学习的过程。我们会从一个非常简单的模型开始——Softmax回归。 然后要明白,例子对应的源代码非常简单,所有值得关注的信息仅仅在三行代码中。然而,这对于理解TensorFlow如何工作以及机器学习的核心概念非常重要

【机器学习】高斯混合模型(GMM)算法及其实现

∥☆過路亽.° 提交于 2019-11-29 19:32:41
相关视频可见 皮皮学机器学习 高斯混合模型(GMM) 学完了EM算法之后,就情不自禁地想学习一下高斯混合模型了。 高斯混合模型是具有如下形式的概率分布模型。 P ( x ) = ∑ k = 1 K W k g ( x ∣ μ k , ∑ k ) P(x)=\sum_{k=1}^KW_kg(x|\mu_k,\sum_k) P ( x ) = k = 1 ∑ K ​ W k ​ g ( x ∣ μ k ​ , k ∑ ​ ) 现在我们来解释一下上式的参数,K为GMM中成分的个数,也就是说有几个高斯分布,g是这几个高斯分布对应的分布密度函数,均值 μ \mu μ 是其均值,协方差矩阵 ∑ \sum ∑ ,W是每个成分的权重。 案例引入 依然使用一个男女身高为例: 在校园里随机抽取2000个学生,其中有男有女,已知男生,女生的身高都服从高斯分布,这两个高斯分布的均值和方差我们都不知道,另外由于某种原因,我们也不知道2000个学生里男生和女生的个数,现在我们要求出两个分布的均值和方差,还有男女比例。 1.初始化参数 2.计算每条身高数据为男/女分布的概率 该条样本所属于男生/女生分布的概率,这里用R表示,其实这一步就是EM算法中的E步,求期望 一维高斯函数: g ( h ∣ μ , σ ) = 1 2 π σ e − 1 2 σ ( x − μ ) 2 g(h|\mu,\sigma)=

几个常用算法的适应场景及其优缺点!

℡╲_俬逩灬. 提交于 2019-11-29 07:56:30
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在 深度学习 很火热, 神经网络 也是一个不错的选择。 假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-valida ti on)对各个算法一个个地进行 测试 ,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。 1.天下没有免费的午餐 在机器学习领域,一个基本的定理就是“没有免费的午餐”。换言之,就是没有算法能完美地解决所有问题,尤其是对监督学习而言(例如预测建模)。 举例来说,你不能去说神经网络任何情况下都能比决策树更有优势,反之亦然。它们要受很多因素的影响,比如你的数据集的规模或结构。 其结果是,在用给定的测试集来评估性能并挑选算法时,你应当根据具体的问题来采用不同的算法。 当然,所选的算法必须要适用于你自己的问题,这就要求选择正确的机器学习任务。作为类比,如果你需要打扫房子,你可能会用到吸尘器、扫帚或是拖把,但你绝对不该掏出铲子来挖地。 2. 偏差

统计-stats

为君一笑 提交于 2019-11-29 02:04:44
统计-stats SciPy的stats模块包含了多种概率分布的随机变量 [1] ,随机变量分为连续和离散两种。所有的连续随机变量都是rv_continuous的派生类的对象,而所有的离散随机变量都是rv_discrete的派生类的对象。 Footnotes [1] 本节中的随机变量是指概率论中的概念,不是Python中的变量 连续和离散概率分布 可以使用下面的语句获得stats模块中所有的连续随机变量: >>> from scipy import stats >>> [k for k,v in stats.__dict__.items() if isinstance(v, stats.rv_continuous)] ['genhalflogistic','triang','rayleigh','betaprime', ...] 连续随机变量对象都有如下方法: rvs:对随机变量进行随机取值,可以通过size参数指定输出的数组的大小。 pdf:随机变量的概率密度函数。 cdf:随机变量的累积分布函数,它是概率密度函数的积分。 sf:随机变量的生存函数,它的值是1-cdf(t)。 ppf:累积分布函数的反函数。 stat:计算随机变量的期望值和方差。 fit:对一组随机取样进行拟合,找出最适合取样数据的概率密度函数的系数。 03-scipy/scipy_stats.py 概率密度函数

经典分布

两盒软妹~` 提交于 2019-11-28 19:32:19
几何分布: (1)做某事件的次数(也叫试验次数)是固定的,用n表示。(例如,抛硬币3次,程序执行5次) (2)每一次事件都有两个可能的结果(成功,或者失败)。(例如,程序执行(成功),程序执行(失败)) (3)每一次“成功”的概率都是相等的,成功的概率用p表示。 (4)这一点也即和二项分布的区别所在,二项分布求解的问题是成功x次的概率。而几何分布求解的问题则变成了——试验x次,才取得第一次成功的概率。 例如,执行101次,第101次才可以执行正确(结果不是程序问题,是其他软件冲突了)的概率。 其中,p表示成功的概率,x表示试验的次数。 假设成功的概率为0.2,则第101次执行成功的概率为:p(第101次执行成功)=(1-0.2)^100 * 0.2 = 0.8^100*0.2 几何分布的期望是E(x)=1/p,每次成功的最小的次数 几何分布的标准差: 二项分布: (1)做某事件的次数(也叫试验次数)是固定的,用n表示。(例如,抛硬币3次,程序执行5次) (2)每一次事件都有两个可能的结果(成功,或者失败)。(例如,程序执行(成功),程序执行(失败)) (3)每一次“成功”的概率都是相等的,成功的概率用p表示。 (4)成功x次的概率是多少,例如,执行101次,有99次可以执行正确的概率。 其中n表示事件发生的次数,x表示成功的次数,p表示每次成功的概率,p(x)为执行了n次

概率论概念总结

你。 提交于 2019-11-28 13:52:42
随机变量   何谓随机变量?即给定样本空间 ,其上的实值函数 称为(实值)随机变量。 期望   离散随机变量的一切可能值与其对应的概率P的乘积之和称为数学 期望 方差   一个随机变量的方差(Variance)描述的是它的离散程度,也就是该变量离其期望值的距离 协方差   在概率论和统计学中用于衡量两个变量的总体误差。而 方差 是 协方差 的一种特殊情况,即当两个变量是相同的情况。 相关系数   衡量随机变量X与Y相关程度的一种方法,相关系数的取值范围是[-1,1]。相关系数的绝对值越大,则表明X与Y相关度越高。当X与Y线性 时,   相关系数取值为1(正线性相关)或-1(负线性相关)。 中心极限定理  心极限定理说明,在适当的条件下,大量相互独立 随机变量 的均值经适当标准化后 依分布收敛 于 正态分布 。这组定理是 数理统计学 和误差分析的理   论基础,指出了大量随机变量之和近似服从正态分布的条件。并且呈正态分布。 贝叶斯公式    P ( h ∣ D ) = P ( h ) P ( D ∣ h )/ P ( D ) ​    贝叶斯定理 是关于随机事件A和B的条件概率的一则定理。其中P是在B发生的情况下A发生的可能性 ,把x关于y的后验概率,转换成了y关于x的后验概率和先验概率,简单说,把不好计算的条件概率转换为好计算的条件概率 全概率公式 设实验E的样本空间为S

EM算法

被刻印的时光 ゝ 提交于 2019-11-28 04:17:38
EM算法理解 来源:[知乎:Evan]( https://www.zhihu.com/question/27976634/answer/252238739 ) 1. EM算法产生的原因 EM算法是为了解决《最大似然估计》中更复杂的情形而存在的。 这里“极大似然估计中更复杂的情形”是什么情形呢? 我们知道极大似然估计是求解实现结果的最佳参数 \(\theta\) ,但极大似然估计需要面临的 概率分布只有一个或者知道结果是通过哪个概率分布实现 的,只不过你不知道这个概率分布的参数。而如果概率分布有多个呢或者你不知道结果是通过哪个概率分布实现的?更别说去确定“这些概率分布”的最佳参数了,我们连最终结果是根据哪个概率分布得出来的都不知道,这就是EM算法要面临的情况了。 2. EM算法 最大似然估计和EM算法都是根据实现结果求解概率分布的最佳参数 \(\theta\) ,但最大似然估计中知道每个结果对应哪个概率分布(我知道哪个概率分布实现了这个结果),而 EM算法面临的问题 是:我不知道哪个概率分布实现了该结果。怎么在不知道其概率分布的情况下还能求解其问题? EM算法的求解思想 在说明EM算法的求解思想前,我们先总结下上面的内容。 一般的用 \(Y\) 表示观测到的随机变量的数据, \(Z\) 表示隐随机变量的数据(因为我们观测不到结果是从哪个概率分布中得出的,所以将这个叫做隐变量)。于是

[转]概率漫谈

懵懂的女人 提交于 2019-11-27 06:23:11
以下资料来自 Dahua 的博客,非常可惜后来该博客关闭了。 前一段时间,随着研究课题的深入,逐步研习现代概率理论,这是一个令人耳目一新的世界。这个世界实在太博大,我自己也在不断学习之中。这篇就算起一个头吧,后面有空的时候还会陆续写一些文章和大家分享我在学习过程中的思考。 概率论要解决的问题 概率论是很古老的数学分支了——探讨的是不确定的问题,就是说,一件事情可能发生,也可能不发生。然后,我们要预计一下,它有多大机会会发生,这是概率论要解决的问题。这里面要特别强调概率和统计的区别,事实上这个区别在很多文章里面被混淆了。举一个简单的例子,比如抛硬币。那么我们可以做两件事情: 我们预先知道抛硬币的过程是“平衡的”,也就是说出现正面的机会和出现背面的机会都是50%,那么,这就是我们的概率模型——这个简单的模型有个名字——伯努利试验(Bernoulli trial)。然后,我们可以预测,如果我们抛10000次硬币,那么正面和背面出现的次数大概各在5000次左右。这种执因“测”果的问题是概率论要解决的,它在事情发生之前进行。 我们预先不知道抛硬币的过程遵循什么法则。于是,我们先去做个实验,抛10000次硬币,数一下正面和反面各出现了多少次。如果各出现了5000次,那么我们可以有很高的信心去认为,这是一个“平衡的”硬币。如果正面出现9000次,反面出现1000次

基于变分自编码器(VAE)利用重建概率的异常检测

﹥>﹥吖頭↗ 提交于 2019-11-27 06:17:13
本文为博主翻译自:Jinwon的Variational Autoencoder based Anomaly Detection using Reconstruction Probability,如侵立删 http://dm.snu.ac.kr/static/docs/TR/SNUDM-TR-2015-03.pdf 摘要 我们提出了一种利用变分自动编码器重构概率的异常检测方法。重建概率是一种考虑变量分布变异性的概率度量。重建概率具有一定的理论背景,使其比重建误差更具有原则性和客观性,而重建误差是自动编码器(AE)和基于主成分(PCA)的异常检测方法所采用的。实验结果表明,所提出的方法形成了基于自动编码器的方法和基于主成分的方法。利用变分自动编码器的生成特性,可以推导出数据重构,分析异常的根本原因。 1 简介 异常或异常值是与剩余数据显着不同的数据点。 霍金斯将异常定义为一种观察结果,它与其他观察结果有很大的偏差,从而引起人们怀疑它是由不同的机制产生的[5]。 分析和检测异常非常重要,因为它揭示了有关数据生成过程特征的有用信息。 异常检测应用于网络入侵检测,信用卡欺诈检测,传感器网络故障检测,医疗诊断等众多领域[3]。 在许多异常检测方法中,光谱异常检测技术试图找到原始数据的低维嵌入,其中异常和正常数据预期彼此分离。 在找到那些较低维度的嵌入之后,它们被带回原始数据空间