概率分布

PRML第一章读书小结

风格不统一 提交于 2020-01-18 08:14:13
PRML第一章读书小结     第一章用例子出发,较为简单的引入了概率论、模型、决策、损失、信息论的问题,作为机器学习从业者,读PRML除了巩固已有基础,还受到了很多新的启发,下面将我收到的启发总结如下。 1. 多项式曲线拟合问题 多项式拟合问题作为全书的第一个引例,通过此说明了很多关键的概念。 给定一个训练集,训练集由$x$的N次观测组成,记作$mathbf{x} equivleft(x {1}, cdots, x {N}right)^{T}$,对应了相应的观测值$t$,记作$mathbf{t} equivleft(t {1}, cdots, t {N}right)^{T}$。 它们拥有了一个内在的规律,这个规律是我们想要学习的 ,但是同时独立的观察会被随机噪声所干扰。我们的目标是利用这个训练集预测输入变量的新值,我们需要隐式地发现内在的函数$sin(2pi x)$,由于 有限的观察和噪声 的,发现这一函数($sin(2pi x)$)很难。 概率论提供了一个框架,用精确的数学形式描述这种不确定性。决策论让我们能够根据合适的标准,利用这种概率的表示,进行最优的预测。 我们经常用多项式函数进行曲线拟合,即$y(x, boldsymbol{w})=w {0} w {1} x w {2} x^{2} ldots w {M} x^{M}=sum {j=0}^{M} w {j} x^{j}$

概率统计——讲透最经典的三种概率分布

痴心易碎 提交于 2020-01-17 08:54:27
本文始发于个人公众号: TechFlow 这一讲当中我们来探讨三种经典的概率分布,分别是伯努利分布、二项分布以及多项分布。 在我们正式开始之前,我们先来明确一个概念,我们这里说的分布究竟是什么? 无论是在理论还是实际的实验当中,一个事件都有可能有若干个结果。每一个结果可能出现也可能不出现,对于每个事件而言出现的可能性就是概率。而分布,就是衡量一个概率有多大。 伯努利分布 明确了分布的概念之后,我们先从最简单的伯努利分布开始。 伯努利分布非常简单,就是假设一个事件只有发生或者不发生两种可能,并且这两种可能是固定不变的。那么,显然,如果假设它发生的概率是p,那么它不发生的概率就是1-p。这就是伯努利分布。 生活中所有只可能出现两种结果并且概率保持不变的事件都可以认为服从伯努利分布,比如抛硬币,比如生孩子是男孩还是女孩。 伯努利实验就是做一次服从伯努利概率分布的事件,它发生的可能性是p,不发生的可能性是1-p。 二项分布 我们明确了伯努利分布之后再来看二项分布就简单了。说白了二项分布其实就是多次伯努利分布实验的概率分布。 以抛硬币举例,在抛硬币事件当中,每一次抛硬币的结果是独立的,并且每次抛硬币正面朝上的概率是恒定的,所以单次抛硬币符合伯努利分布。我们假设硬币正面朝上的概率是p,忽略中间朝上的情况,那么反面朝上的概率是q=(1-p)。我们重复抛n次硬币,其中有k项正面朝上的事件

八种概率分布模型

╄→尐↘猪︶ㄣ 提交于 2020-01-14 02:43:58
一、0-1分布 X 0 1 P p 1 − p \def\arraystretch{1.5} \begin {array}{c:c:c} X & 0 & 1 \\ \hline P & p & 1-p \end {array} X P ​ 0 p ​ 1 1 − p ​ ​ 0-1分布概率为: P { X = k } = p k ( 1 − p ) 1 − k , 其 中 k = { 0 , 1 } P\{X=k\}=p^k(1-p)^{1-k},其中k=\{0,1\} P { X = k } = p k ( 1 − p ) 1 − k , 其 中 k = { 0 , 1 } 例: 二、几何分布 事件发生的概率为 p p p ,前 k − 1 k-1 k − 1 次不发生,第 k k k 次发生的概率为: P { X = k } = ( 1 − p ) k − 1 × p , 其 中 k = 1 , 2 , 3... P\{X=k\}=(1-p)^{k-1}\times p,其中k=1,2,3... P { X = k } = ( 1 − p ) k − 1 × p , 其 中 k = 1 , 2 , 3 . . . 例如:射击中,射中的概率为0.6,连续射击,第 k k k 次射中的概率 三、二项分布 事件发生的概率为 p p p ,做了 n n n 次实验,发生了 k k k

LDA-math-认识Beta/Dirichlet分布

前提是你 提交于 2020-01-13 10:02:10
http://cos.name/2013/01/lda-math-beta-dirichlet/#more-6953 2. 认识Beta/Dirichlet分布 2.1 魔鬼的游戏—认识Beta 分布 统计学就是猜测上帝的游戏,当然我们不总是有机会猜测上帝,运气不好的时候就得揣度魔鬼的心思。有一天你被魔鬼撒旦抓走了,撒旦说:“你们人类很聪明,而我是很仁慈的,和你玩一个游戏,赢了就可以走,否则把灵魂出卖给我。游戏的规则很简单,我有一个魔盒,上面有一个按钮,你每按一下按钮,就均匀的输出一个[0,1]之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对。”你应该怎么猜呢? 从数学的角度抽象一下,上面这个游戏其实是在说随机变量 X 1 , X 2 , ⋯ , X n ∼ i i d U n i f o r m ( 0 , 1 ) ,把这 n 个随机变量排序后得到顺序统计量 X ( 1 ) , X ( 2 ) , ⋯ , X ( n ) , 然后问 X ( k ) 的分布是什么。 对于不喜欢数学的同学而言,估计每个概率分布都是一个恶魔,那在概率统计学中,均匀分布应该算得上是潘多拉魔盒,几乎所有重要的概率分布都可以从均匀分布 U n i f o r m ( 0 , 1 ) 中生成出来;尤其是在统计模拟中,所有统计分布的随机样本都是通过均匀分布产生的。

PRML第一章读书小结

末鹿安然 提交于 2020-01-13 09:58:26
PRML第一章读书小结     第一章用例子出发,较为简单的引入了概率论、模型、决策、损失、信息论的问题,作为机器学习从业者,读PRML除了巩固已有基础,还受到了很多新的启发,下面将我收到的启发总结如下。 1. 多项式曲线拟合问题 多项式拟合问题作为全书的第一个引例,通过此说明了很多关键的概念。 给定一个训练集,训练集由 \(x\) 的N次观测组成,记作 \(\mathbf{x} \equiv\left(x_{1}, \cdots, x_{N}\right)^{T}\) ,对应了相应的观测值 \(t\) ,记作 \(\mathbf{t} \equiv\left(t_{1}, \cdots, t_{N}\right)^{T}\) 。 它们拥有了一个内在的规律,这个规律是我们想要学习的 ,但是同时独立的观察会被随机噪声所干扰。我们的目标是利用这个训练集预测输入变量的新值,我们需要隐式地发现内在的函数 \(sin(2\pi x)\) ,由于 有限的观察和噪声 的,发现这一函数( \(sin(2\pi x)\) )很难。 概率论提供了一个框架,用精确的数学形式描述这种不确定性。决策论让我们能够根据合适的标准,利用这种概率的表示,进行最优的预测。 我们经常用多项式函数进行曲线拟合,即 \(y(x, \boldsymbol{w})=w_{0}+w_{1} x+w_{2} x^{2}+

beta 分布的简单理解

送分小仙女□ 提交于 2020-01-12 23:54:02
二项分布和Beta分布 二项分布 在概率论和统计学中,二项分布是n个独立的[是/非]试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。举两个例子就很容易理解二项分布的含义了: 抛一次硬币出现正面的概率是0.5(p),抛10(n)次硬币,出现k次正面的概率。 掷一次骰子出现六点的概率是1/6,投掷6次骰子出现k次六点的概率。 在上面的两个例子中,每次抛硬币或者掷骰子都和上次的结果无关,所以每次实验都是独立的。二项分布是一个离散分布,k的取值范围为从0到n,只有n+1种可能的结果。 n = 10 k = np.arange(n+1) pcoin = stats.binom.pmf(k, n, 0.5) [ 0.00097656, 0.00976563, 0.04394531, 0.1171875 , 0.20507813, 0.24609375, 0.20507813, 0.1171875 , 0.04394531, 0.00976563, 0.00097656 ] 下面是投掷6次骰子,出现6点的概率分布。 n = 6 k = np.arange(n+1) pdice = stats.binom.pmf(k, n, 1.0/6) [ 3.34897977e-01, 4.01877572e-01, 2.00938786e-01, 5.35836763e-02, 8

逻辑回归模型

不打扰是莪最后的温柔 提交于 2019-12-30 12:02:19
逻辑回归模型 - zgw21cn - 博客园 逻辑回归模型 1. 逻辑 回 归 模型 1.1逻辑回归模型 考虑具有p个独立变量的向量 ,设条件概率 为根据观测量相对于某事件发生的概率。逻辑回归模型可表示为 (1.1) 上式右侧形式的函数称为称为逻辑函数。下图给出其函数图象形式。 其中 。如果含有名义变量,则将其变为dummy变量。一个具有k个取值的名义变量,将变为k-1个dummy变量。这样,有 (1.2) 定义不发生事件的条件概率为 (1.3) 那么,事件发生与事件不发生的概率之比为 (1.4) 这个比值称为事件的发生比(the odds of experiencing an event),简称为odds。因为0<p<1,故odds>0。对odds取对数,即得到线性函数, (1.5) 1.2极大似然函数 假设有n个观测样本,观测值分别为 设 为给定条件下得到 的概率。在同样条件下得到 的条件概率为 。于是,得到一个观测值的概率为 (1.6) 因为各项观测独立,所以它们的联合分布可以表示为各边际分布的乘积。 (1.7) 上式称为n个观测的似然函数。我们的目标是能够求出使这一似然函数的值最大的参数估计。于是,最大似然估计的关键就是求出参数 ,使上式取得最大值。 对上述函数求对数 (1.8) 上式称为对数似然函数。为了估计能使 取得最大的参数 的值。 对此函数求导,得到p+1个似然方程

Softmax回归(Softmax Regression)

て烟熏妆下的殇ゞ 提交于 2019-12-27 05:04:06
转自:http://www.cnblogs.com/BYRans/ 多分类问题 在一个多分类问题中,因变量y有k个取值,即 。例如在邮件分类问题中,我们要把邮件分为垃圾邮件、个人邮件、工作邮件3类,目标值y是一个有3个取值的离散值。这是一个多分类问题,二分类模型在这里不太适用。 多分类问题符合 多项分布 。有许多算法可用于解决多分类问题,像决策树、朴素贝叶斯等。这篇文章主要讲解多分类算法中的 Softmax回归(Softmax Regression) 推导思路为:首先证明多项分布属于指数分布族,这样就可以使用广义线性模型来拟合这个多项分布,由广义线性模型推导出的目标函数 即为Softmax回归的分类模型。 证明多项分布属于指数分布族 多分类模型的输出结果为该样本属于k个类别的概率,从这k个概率中我们选择最优的概率对应的类别(通常选概率最大的类别),作为该样本的预测类别。这k个概率用k个变量 , …, 表示。这个k变量和为1,即满足: 可以用前k-1个变量来表示,即: 使用 广义线性模型 拟合这个多分类问题,首先要验证这个多项分布是否符合一个指数分布族。定义T(y)为: 在这里,统计分量T(y)并没有像之前那样定义为T(y)=y,因为T(y)不是一个数值,而是一个k-1维的向量。使用符号 表示向量T(y)的第i个元素。 在这里引入一个新符号: ,如果括号内为true则这个符号取1

机器学习距离公式总结

*爱你&永不变心* 提交于 2019-12-25 13:11:40
作者:daniel-D 出处:http://www.cnblogs.com/daniel-D/ 在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0 // 到自己的距离为0 2) d(x,y) >= 0 // 距离非负 3) d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a 4) d(x,k)+ d(k,y) >= d(x,y) // 三角形法则: (两边之和大于第三边) 这篇博客主要介绍机器学习和数据挖掘中一些常见的距离公式,包括: 闵可夫斯基距离 欧几里得距离 曼哈顿距离 切比雪夫距离 马氏距离 余弦相似度 皮尔逊相关系数 汉明距离 杰卡德相似系数 编辑距离 DTW 距离 KL 散度 1. 闵可夫斯基距离 闵可夫斯基距离(Minkowski distance)是衡量数值点之间距离的一种非常常见的方法,假设数值点 P 和 Q 坐标如下: 那么,闵可夫斯基距离定义为: 该距离最常用的 p 是 2 和 1, 前者是欧几里得距离

马尔可夫链蒙特卡罗算法(MCMC)-(二)

99封情书 提交于 2019-12-22 00:38:02
在 马尔可夫链蒙特卡罗算法(MCMC)-(一) 中,我们讲到了如何用蒙特卡罗方法来随机模拟求解一些复杂的连续积分或者离散求和的方法,但是这个方法需要得到对应的概率分布的样本集,而想得到这样的样本集很困难。因此我们需要本篇讲到的马尔科夫链来帮忙。 一.马尔可夫链概述 马尔科夫链定义本身比较简单,它假设某一时刻状态转移的概率只依赖于它的前一个状态。举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。当然这么说可能有些武断,但是这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络RNN,隐式马尔科夫模型HMM等,当然MCMC也需要它。 如果用精确的数学定义来描述,则假设我们的序列状态是...Xt−2,Xt−1,Xt,Xt+1...,那么我们的在时刻Xt+1的状态的条件概率仅仅依赖于时刻Xt,即: 既然某一时刻状态转移的概率只依赖于它的前一个状态,那么我们只要能求出系统中任意两个状态之间的转换概率,这个马尔科夫链的模型就定了。我们来看看下图这个马尔科夫链模型的具体的例子(来源于维基百科)。 这个马尔科夫链是表示股市模型的,共有三种状态:牛市(Bull market), 熊市(Bear market)和横盘(Stagnant market)。每一个状态都以一定的概率转化到下一个状态。比如