随机变量

概率、统计、最大似然估计、最大后验估计、贝叶斯定理、朴素贝叶斯、贝叶斯网络

匆匆过客 提交于 2020-01-18 02:17:58
这里写自定义目录标题 概率和统计是一个东西吗? 概率函数与似然函数 最大似然估计(MLE) 最大后验概率估计 最大后验估计的例子 贝叶斯派观点 VS 频率派观点 贝叶斯定理 朴素贝叶斯分类器 朴素贝叶斯分类器实例 贝叶斯网络 贝叶斯网络的结构形式 因子图 从贝叶斯网络来观察朴素贝叶斯 概率和统计是一个东西吗? 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 举个例子,我想研究怎么养猪(模型是猪),我选好了想养的品种、喂养方式、猪棚的设计等等(选择参数),我想知道我养出来的猪大概能有多肥,肉质怎么样(预测结果)。 统计是,有一堆数据,要利用这堆数据去预测模型和参数。 仍以猪为例。现在我买到了一堆肉,通过观察和判断,我确定这是猪肉(这就确定了模型。在实际研究中,也是通过观察数据推测模型是/像高斯分布的、指数分布的、拉普拉斯分布的等等),然后,可以进一步研究,判定这猪的品种、这是圈养猪还是跑山猪还是网易猪,等等(推测模型参数)。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 显然, 本文解释的MLE(最大似然估计)和MAP(最大后验估计)都是统计领域的问题。它们都是用来推测参数的方法(不是推测模型

信息论-熵-随机变量-泛函

别等时光非礼了梦想. 提交于 2020-01-09 02:54:03
一. 熵的定义: 原始熵的定义:克劳修斯(T.Clausius) 于1854年提出熵(entropie)的概念, 我国物理学家胡刚复教授于1923年根据热温商之意首次把entropie译为“熵”。熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。统计热力学: 熵的大小与体系的微观状态Ω有关,即S=klnΩ,其中k为玻尔兹曼常量,k=1.3807x10 -23J·K -1。体系微观状态Ω是 大量质点的体系经统计规律而得到的热力学概率 ,因此熵有统计意义,对只有几个、几十或几百分子的体系就无所谓熵。   信息熵:1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息论之父克劳德·艾尔伍德·香农第一次用数学语言阐明了概率与信息冗余度的关系。C. E. Shannon 在 1948 年发表的论文“通信的数学理论( A Mathematical Theory of Communication )”中, Shannon 指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。   离散信号的信息熵:信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E)

随机变量及其分布

本秂侑毒 提交于 2020-01-06 20:50:23
目录 随机变量及其分布 常用的离散随机分布 常用的连续随机分布 多维度随机变量及其分布 随机变量及其分布 常用的离散随机分布 Poisson Distribution \(P(X = x)=\begin{pmatrix} n \\ x \end{pmatrix}p^{x}(1-p)^{n-x}=\frac{n!}{x!(n-x)!}p^{x}(1-p)^{n-x}=\\ \frac{n(n-1)\dots(n-x+2)(n-x+1)p^{x}}{x!}(1-p)^{n-x}\) 这里我们这样处理: \(p\rightarrow 0 ,n \rightarrow \infty\) \(P(\lambda)\) \[P_{k}=\frac{\lambda^{k}}{k!}e^{-\lambda}\quad k=0,1,\dots\] 几何分布 \[Ge(n,p)\] (用于研究单次伯努利试验的成功率) \(P_{k}=p(1-p)^{k-1}\) 二项分布 \[b(n,p)\] \(P_{k}=\begin{pmatrix} n \\ k \end{pmatrix}p^{k}(1-p)^{n-k}\) 常用的连续随机分布 均匀分布 正态分布 \[N(\mu,\sigma)\] 密度函数: \(p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{\frac{-(x-

概率统计基本概念总结

会有一股神秘感。 提交于 2020-01-05 22:08:59
一、概率论基本概念 样本空间、随机事件 频率和概率 概率的相关运算和性质 等可能概型:古典概型 条件概率 全概率公式:你用条件概念算事件概率 贝叶斯公式:条件概率用于反推计算条件概率 事件的相互独立性 二、随机变量极其分布 随机变量:每个样本点映射一个数字来表征 基本离散型随便基变量分布:0-1分布、伯努利实验二项分布、泊松分布 分布函数:随机变量概率在小于某随机变量的区间的概率和 概率密度函数:连续性的随即变量的概率密度分布函数,分布函数是密度函数的定积分。 概率密度的几种分布:均匀分布、指数分布、正态分布、 随机变量之间的映射函数,及对映射前后概率密度函数的推导 三、多维随机变量极其分布 随机变量由二维向量表征,称为:二维随机变量 二维随机变量的分布函数称为联合分布函数 联合分布函数式联合分布密度的定重积分 二维随机中某一维变量的分布函数称为二维联合分布函数的边缘分布 相对于边缘分布函数还有边缘概率密度 边缘分布主要用于用联合分布求边缘分布 二维变量概率和其中一维的的条件分布律 某一维条件确定下的条件概率密度分布 联合分布的随机变量相互独立 二维随机变量联合分布的几种: 1、z=x+y分布:卷积公式 2、z=x/y、z=xy的分布 3、M=max{x,y}及N={x,y}的分布 四、随机变量的数字特征 离散随机变量*概率的的全分布求和值收敛,则称这个值为数学期望。又称均值 方差

概率论——随机变量

久未见 提交于 2019-12-26 23:49:31
文章目录 随机变量 随机变量   在进行试验时,相对于试验的实际结果而言,我们可能更关注于试验结果的某些 函数 。例如,在掷两枚骰子的试验中,我们并不关心每个骰子的具体数值,而是关心两枚骰子的点数之和。定义: 定义在样本空间上的实值函数,称为随机变量 。由于随机变量的取值由试验结果决定,所以我们也会对随机变量的可能取值指定概率,关于随机变量取值的概率,其性质与事件的概率一致。简单来说,随机变量是事件的数量表现。对于随机变量 X X X ,定义如下函数 F F F F ( x ) = P { X ≤ x } − ∞ < x < ∞ F(x)=P\{X\le x\} \ \ \ -\infty \lt x \lt \infty F ( x ) = P { X ≤ x } − ∞ < x < ∞ 该函数称为 X X X 的 累积分布函数 ,简称 分布函数 。因此对任一给定实数 x x x ,分布函数为该随机变量小于等于 x x x 的概率。显然 F ( x ) F(x) F ( x ) 是 x x x 的单调非降函数(事件的包含关系)。   按照随机变量可能取得的值,可以将随机变量分为两种类型:离散型和连续型。 参考资料:《概率论基础教程》Sheldon M.Ross 来源: CSDN 作者: 就叫昵称吧 链接: https://blog.csdn.net/qq_39378221

贝叶斯决策理论(1)

蹲街弑〆低调 提交于 2019-12-26 18:11:41
  数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我们对这些变量对结果的影响缺乏必要的认知,所以退而求其次,把投掷硬币作为一个随机过程来建模,并用概率理论对其进行分析。      概率有时也被解释为频率或可信度,但是在日常生活中,人们讨论的概率经常包含着主观的因素,并不总是能等同于频率或可信度。比如有人分析中国足球队打进下次世界杯的概率是10%,并不是说出现的频率是10%,因为下次比赛还没有开始。我们实际上是说这个结果出现的可能性,由于是主观的,因此不同的人将给出不同的概率。   在数学上,概率研究的是随机现象背后的客观规律。我们对随机没有兴趣,感兴趣的是通过大量随机试验总结出的数学模型。当某个试验可以在完全相同的条件下不断重复时,对于任意事件E(试验的可能结果的集合,事件是集合,不是动作),结果在出现在E中的次数占比趋近于某个常量,这个常数极限是事件E的概率,用P(E)表示。   我们需要对现实世界建模,将现实世界的动作映射为函数,动作结果映射为数。比如把投硬币看作f(z),z是影响结果的一系列不可观测的变量,x 表示投硬币的结果,x = f(z)

处理分类问题常用算法(二)-----算法岗面试题

笑着哭i 提交于 2019-12-25 12:56:51
● 分层抽样的适用范围 参考回答: 分层抽样利用事先掌握的信息,充分考虑了保持样本结构和总体结构的一致性,当总体由差异明显的几部分组成的时候,适合用分层抽样。 ● LR的损失函数 参考回答: M为样本个数, 为模型对样本i的预测结果, 为样本i的真实标签。 ● LR和线性回归的区别 参考回答: 线性回归用来做预测,LR用来做分类。线性回归是来拟合函数,LR是来预测函数。线性回归用最小二乘法来计算参数,LR用最大似然估计来计算参数。线性回归更容易受到异常值的影响,而LR对异常值有较好的稳定性。 ● 生成模型和判别模型基本形式,有哪些? 参考回答: 生成式:朴素贝叶斯、HMM、Gaussians、马尔科夫随机场 判别式:LR,SVM,神经网络,CRF,Boosting 详情:支持向量机 ● 核函数的种类和应用场景。 参考回答: 线性核、多项式核、高斯核。 特征维数高选择线性核 样本数量可观、特征少选择高斯核(非线性核) 样本数量非常多选择线性核(避免造成庞大的计算量) 详情:支持向量机 ● 分类算法列一下有多少种?应用场景。 参考回答: 单一的分类方法主要包括:LR逻辑回归,SVM支持向量机,DT决策树、NB朴素贝叶斯、NN人工神经网络、K-近邻;集成学习算法:基于Bagging和Boosting算法思想,RF随机森林,GBDT,Adaboost,XGboost。 ●

一文搞懂交叉熵损失

痞子三分冷 提交于 2019-12-20 06:12:42
本文从信息论和最大似然估计得角度推导交叉熵作为分类损失函数的依据。 从熵来看交叉熵损失 信息量 信息量来衡量一个事件的不确定性,一个事件发生的概率越大,不确定性越小,则其携带的信息量就越小。 设 \(X\) 是一个离散型随机变量,其取值为集合 \(X = {x_0,x_1,\dots,x_n}\) ,则其概率分布函数为 \(p(x) = Pr(X = x),x \in X\) ,则定义事件 \(X = x_0\) 的信息量为: \[ I(x_0) = -\log(p(x_0)) \] 当 \(p(x_0) = 1\) 时,该事件必定发生,其信息量为0. 熵 熵用来衡量一个系统的混乱程度,代表系统中信息量的总和;熵值越大,表明这个系统的不确定性就越大。 信息量是衡量某个事件的不确定性,而熵是衡量一个系统(所有事件)的不确定性。 熵的计算公式 \[ H(x) = -\sum_{i=1}^np(x_i)\log(p(x_i)) \] 其中, \(p(x_i)\) 为事件 \(X=x_i\) 的概率, \(-log(p(x_i))\) 为事件 \(X=x_i\) 的信息量。 可以看出,熵是信息量的期望值,是一个随机变量(一个系统,事件所有可能性)不确定性的度量。熵值越大,随机变量的取值就越难确定,系统也就越不稳定;熵值越小,随机变量的取值也就越容易确定,系统越稳定。 相对熵

互信息深度理解

社会主义新天地 提交于 2019-12-16 18:40:07
https://blog.csdn.net/BigData_Mining/article/details/81279612 1.互信息的定义   正式地,两个离散随机变量 X 和 Y 的互信息可以定义为:   其中 p(x,y) 是 X 和 Y 的 联合概率分布函数 ,而p(x)和p(y)分别是 X 和 Y 的 边缘概率 分布函数。   在 连续随机变量 的情形下,求和被替换成了 二重定积分 :   其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数,而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。   互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底,互信息的单位是 bit 。   直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的 熵 。而且