概率分布 | 易学教程

deep_learning_Function_numpy_random.normal()

阅读更多关于 deep_learning_Function_numpy_random.normal()

numpy常用函数之random.normal函数 np.random.normal(loc=0.0, scale=1.0, size=None) 作用： loc：float 此概率分布的均值（对应着整个分布的中心centre） scale：float 此概率分布的标准差（对应于分布的宽度，scale越大越矮胖，scale越小，越瘦高） size：int or tuple of ints 输出的shape，默认为None，只输出一个值举例： nd1 = np.random.normal(loc=1,scale=2,size=2)#array([-0.46982446, -1.28956852]) 来源：博客园作者：醉画仙链接：https://www.cnblogs.com/0405mxh/p/11655327.html

贝叶斯的三个参数估计

阅读更多关于贝叶斯的三个参数估计

概率与统计概率：在给定数据生成过程下观测研究数据的性质；模型和参数->数据；推理统计：根据观测的数据，反向思考其数据的生成过程；数据->模型和参数：归纳关系：概率论是统计学的数学基础，统计是对概率论的应用描述统计和推断统计描述统计：描绘或总结观察量基本情况（均值，方差，中位数，四分位数等）推断统计：根据得到的部分数据推测总体数据的情况（参数统计，非参数统计，估计量，真实分布，经验分布） “似然”与“概率”：在英语中：似然（likelihood）和概率（probability）都指事件发生的可能性在统计中：概率是已知参数，对结果可能性的预测，似然是已知结果，对参数是某一个值的可能性预测。对于函数 \(P(x|\theta)\) 如果 \(\theta\) 已知且保持不变， \(x\) 是变量，则函数 \(P(x|\theta)\) 称为概率函数，表示不同 \(x\) 出现的概率如果 \(x\) 已知且保持不变， \(\theta\) 是变量，则函数 \(P(x|\theta)\) 称为似然函数，表示不同 \(\theta\) 下， \(x\) 出现的概率，也记做 \(L(\theta|x)\) 或 \(L(X;\theta)\) 或 \(f(x;\theta)\) 频率学派与贝叶斯学派频率学派与贝叶斯学派只是解决问题的角度不同频率学派从「自然」角度出发

柏松分布

阅读更多关于柏松分布

https://www.imooc.com/article/details/id/29670 http://www.99cankao.com/statistics/poisson-distribution-calculator.php 泊松分布是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩・德尼・泊松（Siméon-Denis Poisson）在1838年时发表。概率论中常用的一种离散型概率分布。若随机变量 X 只取非负整数值，取k值的概率为 (k=0,1,2,…) 则随机变量X 的分布称为泊松分布，记作P(λ)。这个分布是S.-D.泊松研究二项分布的渐近公式是时提出来的。泊松分布P (λ)中只有一个参数λ ，它既是泊松分布的均值，也是泊松分布的方差。在实际事例中，当一个随机事件，例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等，以固定的平均瞬时速率 λ(或称密度)随机且独立地出现时，那么这个事件在单位时间（面积或体积）内出现的次数或个数就近似地服从泊松分布。因此泊松分布在管理科学，运筹学以及自然科学的某些问题中都占有重要的地位。转载请标明出处: 柏松分布文章来源: 柏松分布

最大似然估计、最大后验估计与朴素贝叶斯分类算法

阅读更多关于最大似然估计、最大后验估计与朴素贝叶斯分类算法

最大似然估计、最大后验估计与朴素贝叶斯分类算法目录　　一、前言　　二、概率论基础　　三、最大似然估计　　四、最大后验估计　　五、朴素贝叶斯分类　　六、参考文献一、前言　　本篇文章的主要内容为笔者对概率论基础内容的回顾，及个人对其中一些知识点的解读。另外，在这些上述知识的基础之上，回顾了概率推断的基础内容最大似然估计与最大后验估计。最后，文章的结尾回顾了朴素贝叶斯分类方法的基本流程，并且用一个小案例来帮助读者更好地掌握该方法的基本流程。二、概率论基础（1）概率　　定义[1]：设E是随机实验，S是它的样本空间。对于E的每一个事件A赋予一个实数，记为P(A)，称为事件A的概率，如果集和函数P(.)满足如下条件：　　（1）非负性：对每一个事件A，有P(A)>=0; 　　（2）规范性：对于必然事件S，有p(S)=1; 　　（3）可列可加性：设A1，A2，...是两两互不相容的事件，即对于AiAj=Ø，i≠j，i，j=1，2，...，有：　　P(A1∪A2∪A3...)=P(A1)+P(A2)+P(A3)+.... （2）随机变量　　一个随机变量指的是一个可以随机地取多种数值的的变量，本文中使用大写字母来表示随机变量，其取值则用小写字母表示，如：随机变量X，可以取值为{x 1 ,x 2 ,x 3 ,...}。随机变量只是一种对随机现象所有可能状态的表示

[转]np.random.normal()正态分布

阅读更多关于 [转]np.random.normal()正态分布

高斯分布的概率密度函数 numpy中 numpy.random.normal(loc= 0.0, scale= 1.0, size= None) 参数的意义为：　　loc:float 　　概率分布的均值，对应着整个分布的中心center 　　scale:float 　　概率分布的标准差，对应于分布的宽度，scale越大越矮胖，scale越小，越瘦高　　size:int or tuple of ints 　　输出的shape，默认为None，只输出一个值　　我们更经常会用到np.random.randn(size)所谓标准正太分布（μ=0, σ=1），对应于np.random.normal(loc=0, scale=1, size) 来源： https://www.cnblogs.com/super999/p/11757817.html

概率图模型

阅读更多关于概率图模型

1、概率图模型是用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。如果用一个词来形容概率图模型（Probabilistic Graphical Model）的话，那就是“优雅”。对于一个实际问题，我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图，用观测结点表示观测到的数据，用隐含结点表示潜在的知识，用边来描述知识与数据的相互关系，最后基于这样的关系图获得一个概率分布，非常“优雅”地解决了问题。概率图中的节点分为隐含节点和观测节点，边分为有向边和无向边。从概率论的角度，节点对应于随机变量，边对应于随机变量的依赖或相关关系，其中有向边表示单向的依赖，无向边表示相互依赖关系。概率图模型分为**贝叶斯网络（Bayesian Network）和马尔可夫网络（Markov Network）**两大类。贝叶斯网络可以用一个有向图结构表示，马尔可夫网络可以表示成一个无向图的网络结构。更详细地说，概率图模型包括了朴素贝叶斯模型、最大熵模型、隐马尔可夫模型、条件随机场、主题模型等，在机器学习的诸多场景中都有着广泛的应用。 2、参数是随机变量，而样本X 是固定的，由于样本是固定的，所以他们重点研究的是参数的分布。贝叶斯派既然把看做是一个随机变量，所以要计算的分布，便得事先知道的无条件分布

概率论与数理统计学习笔记——第十六讲——二元随机变量，离散型随机变量分布律

阅读更多关于概率论与数理统计学习笔记——第十六讲——二元随机变量，离散型随机变量分布律

1. 引例 2. 二元随机变量 3. 二元离散型随机变量 4. 离散型随机变量的联合概率分布律 5. 离散型随机变量的联合概率分布律的性质 6. 离散型随机变量的联合概率分布律示例来源： https://blog.csdn.net/hpdlzu80100/article/details/102748685

Logarithmic transformation|Data transfer|MASS|Box-Cox

阅读更多关于 Logarithmic transformation|Data transfer|MASS|Box-Cox

数据转换（ Data transfer ）方差分析的前提是方差齐性，可以使用 transfer 改变方差使得方差变齐、不正态和 outlier 。 Logarithmic transformation 使方差聚合。取平方使方差离散。二项分布使用反正弦转换。注意：远远偏离 0.5 则不管用，在 0.5 附近则转不转都很正态。常见概率分布对应的处理方法：虽然存在一套常见概率分布的克服方法，但是仍有不能克服的问题，比如 1.outlier2. 双峰 3. 长尾分布。于是又提出 Box-Cox 方法，现有 R package （ MASS ）可做。来源： https://www.cnblogs.com/yuanjingnan/p/11721638.html

深度学习中的交叉熵

阅读更多关于深度学习中的交叉熵

熵：是信息量的期望值，它是一个随机变量的确定性的度量。交叉熵：刻画的是两个概率分布之间的距离，或可以说它刻画的是通过概率分布 q来表达概率分布p的困难程度。p代表正确答案，q代表预测值，交叉熵越小，两个概率分布越接近。那么，在神经网络中怎样把前向传播得到的结果也变成概率分布呢？ Softmax回归就是一个非常有用的方法。假设原始的神经网络的输出为 y1,y2,...,yn，那么经过Softmax回归处理之后的输出为：这样就把神经网络的输出也变成了一个概率分布，从而可以通过交叉熵来计算预测的概率分布和真实答案的概率分布之间的距离了。参考：https://blog.csdn.net/weixin_37567451/article/details/80895309 来源： https://www.cnblogs.com/iamdongyang/p/11668400.html

概率分布学习

阅读更多关于概率分布学习

共轭先验（conjugate prior）：共轭是贝叶斯理论中的一个概念，共轭一般指的是先验分布与似然函数之间共轭；而共轭的结局是让后验概率分布（根据贝叶斯公式，后验概率分布正⽐于先验概率分布和似然函数的乘积）拥有与先验分布相同的函数形式，简单说就是服从同种形式的分布。之所以采用共轭先验的原因是可以使得先验分布和后验分布的形式相同，这样一方面合符人的直观（它们应该是相同形式的），另外一方面是可以形成一个先验链，即现在的后验分布 p(θ|x) 可以作为下一次计算的先验分布 p(θ)，如果形式相同，就可以形成一个链条。似然函数：在贝叶斯公式里，p(x|θ) 叫做似然函数。会发现和之前学习的最大似然估计中的 L(θ|x) 不一样。但事实上在贝叶斯公式里，。解释：参数 θ 在给定观测值 x 的情况下的似然函数等于，在给定参数为 θ 的情况下，取 x 的概率。注意：P(x|θ) 处的竖杠并不表示条件概率，仅仅是一种取该值的含义。概率密度函数：概率分布函数，给出取值小于某个值的概率，是概率的累加形式F(x)=P(xi<x)=sum(P(x1),P(x2),……,P(x))（对于离散型变量）；或对概率密度函数f(x)求积分（对于连续型变量）。概率函数用于描述离散型变量，即用函数形式给出每个取值发生的概率，P(x)（x=x1，x2，x3，……）。

订阅概率分布