概率计算

beta 分布的简单理解

送分小仙女□ 提交于 2020-01-12 23:54:02
二项分布和Beta分布 二项分布 在概率论和统计学中,二项分布是n个独立的[是/非]试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。举两个例子就很容易理解二项分布的含义了: 抛一次硬币出现正面的概率是0.5(p),抛10(n)次硬币,出现k次正面的概率。 掷一次骰子出现六点的概率是1/6,投掷6次骰子出现k次六点的概率。 在上面的两个例子中,每次抛硬币或者掷骰子都和上次的结果无关,所以每次实验都是独立的。二项分布是一个离散分布,k的取值范围为从0到n,只有n+1种可能的结果。 n = 10 k = np.arange(n+1) pcoin = stats.binom.pmf(k, n, 0.5) [ 0.00097656, 0.00976563, 0.04394531, 0.1171875 , 0.20507813, 0.24609375, 0.20507813, 0.1171875 , 0.04394531, 0.00976563, 0.00097656 ] 下面是投掷6次骰子,出现6点的概率分布。 n = 6 k = np.arange(n+1) pdice = stats.binom.pmf(k, n, 1.0/6) [ 3.34897977e-01, 4.01877572e-01, 2.00938786e-01, 5.35836763e-02, 8

I NEED A OFFER! 动规小练

二次信任 提交于 2020-01-12 05:13:33
I NEED A OFFER! 原题链接https://vjudge.net/contest/349774#problem/K 求被录取的最大概率也就是求不被录取的最小概率,清楚这一点后就会简单很多,采用01背包来计算最小值即可,最后要注意输出格式 # include <cstdio> # include <cstring> # include <iostream> # include <algorithm> # include <cmath> # include <cstdlib> # include <fstream> using namespace std ; long long a [ 100005 ] ; double b [ 100005 ] ; double dp [ 10005 ] ; int main ( ) { long long n , m ; while ( ~ scanf ( "%lld %lld" , & n , & m ) ) { if ( n == 0 && m == 0 ) { break ; } long long i , j ; for ( i = 0 ; i < 10005 ; i ++ ) { dp [ i ] = 1 ; } for ( i = 1 ; i <= m ; i ++ ) { scanf ( "%lld %lf" , & a

fromzhihuHMM

二次信任 提交于 2020-01-10 10:01:44
机器学习-隐马尔科夫模型 https://zhuanlan.zhihu.com/p/94019054 隐马尔科夫模型 1 基本概念 状态序列(state sequence):隐藏的马尔可夫随机链生成的状态序列,不可观测 观测序列(observation sequence):每个状态生成一个观测,由此产生观测的随机序列 隐马尔科夫模型的三要素: 状态转移概率矩阵: , 为所有可能的状态数 观测概率矩阵: , 为所有的观测的集合 初始状态概率向量: ,其中, 隐马尔可夫模型的表示: 隐马尔科夫模型的两个基本假设: 齐次马尔可夫假设: 假设隐藏的马尔可夫链在 任意时刻 的状态 只依赖于其前一时刻的状态 与其他时刻的状态 及观测无关 也与时刻 无关 观测独立性假设: 假设 任意时刻 的观测 只依赖于该时刻的马尔可夫链的状态 与其他观测 及状态无关 隐马尔科夫模型的三个基本问题: 概率计算问题:在模型 下观测序列 出现的概率 输入:模型 ,观测序列 输出: 学习问题:已知观测序列 ,估计模型 的参数,使观测序列概率 最大,用极大似然法估计 输入:观测序列 输出:输出 预测问题,也称为解码问题(Decoding) 输入:模型 ,观测序列 输出:状态序列 标注问题,给定观测的序列预测对应的标记序列。状态对应着标记。 2 概率计算问题 2.1 直接计算法 列举所有的可能状态序列 ,长度为 计算:

概率统计——为什么条件概率的结果总和直觉不同?

馋奶兔 提交于 2020-01-10 08:26:22
从前有一户夫妻,他们生了两个孩子。已知其中一个是女孩,那么另一个孩子也是女孩的概率是多少呢? 这是一道概率论课本上的 经典问题 ,一开始的时候,很多人会觉得两个孩子的性别是独立事件,我们知道其中一个孩子的性别,应该对另一个孩子没有影响。但实际上并不是这样,我们可以列出两个孩子性别的所有可能: 从上面这个表格里,我们可以看出来,两个孩子的性别组合一共有4种。其中至少有一个女孩的是三种,而这三种当中,两个孩子都是女孩的有一种。所以答案就是1/3。 除了表格列举出所有情况之外,我们还可以通过 条件概率 来计算。 我们直接套用条件概率的公式:假设A事件代表两个孩子中有一个是女孩,B事件是两个孩子都为女孩。显然,我们要求的就是P(B|A)。 根据公式: 在这题当中A事件发生,B一定发生,所以P(AB) = P(A). 我们知道,两个孩子的性别是独立事件,其中有一个为女孩的概率等于1减去两个都是男孩的概率,两个都是男孩的概率等于 所以至少有一个女孩的概率等于3/4。同理,两个都为女孩的概率是1/4。 所以,我们套入公式 所以另一个孩子也是女孩的概率是 1/3 。 这个答案的计算过程没什么问题,我想大家应该都能看明白,但是不知道会有多少人觉得奇怪。为什么答案不是 1/2 呢?难道两个孩子的性别 不是独立 的吗?一个孩子是女孩和另一个孩子是男是女应该没有联系呀? 在我们回答这个问题之前

用概率来估算圆周率

↘锁芯ラ 提交于 2020-01-09 17:29:25
  这是昨日我在CSDN上碰到的一个问题所引发的思考和所得。   有一个人在CSDN BBS上提问一段程序: 1 #include <stdlib.h> 2 #include <stdio.h> 3 #define LOOP 1000 4 void main() 5 { 6 int rgnC=0; 7 for(int i=0;i<LOOP;i++) 8 { 9 int x=rand();10 int y=rand();11 if(x*x+y*y<RAND_MAX*RAND_MAX)12 rgnC++;13 }14 printf("%d\n",rgnC);15 }   他的问题是:这段程序是不是和1/4圆和正方形的大小有关,为什么LOOP越大,rgnC越大,是不是程序错了。   其实LOOP越大,rgnC必然越大,但是rgnC/LOOP确是收敛的。   开始我的回答就是这些,没有去想这段程序的作用和这个收敛值到底是干嘛的。直到后来又有一个人给出了这个程序是用来估算圆周率的,我才发现我的思考是多么的不深刻和不完善。   其实随着LOOP的增大,rgnC/LOOP确实会收敛于一个值 π /4。这是用概率来估算圆周率的一个方法。   圆的面积公式:C = π × r^2 公式1   正方形面积公式:S = k^2 公式2   这里用1/4圆,它的半径r和正方形的边长k相等。  

机器学习基础系列--先验概率 后验概率 似然函数 最大似然估计(MLE) 最大后验概率(MAE) 以及贝叶斯公式的理解

♀尐吖头ヾ 提交于 2020-01-08 23:15:48
目录 机器学习基础 1. 概率和统计 2. 先验概率 3. 后验概率 4. 似然函数 5. 有趣的野史--贝叶斯和似然之争-最大似然概率(MLE)-最大后验概率(MAE)-贝叶斯公式 总结:先验概率 后验概率以及似然函数的关系 机器学习基础 1. 概率和统计 概率(probabilty)和统计(statistics)看似两个相近的概念,其实研究的问题刚好相反。 顾名思义: 概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等等)。 统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数。在实际研究中,也是通过观察数据,推测模型是高斯分布的、指数分布的、拉普拉斯分布的等,然后,可以进一步研究,推测模型参数。 一句话总结: 概率是已知模型和参数,推数据。统计是已知数据,推模型和参数。 2. 先验概率 百度百科定义:先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。 维基百科定义: 在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑"观测数据"前,能表达p不确定性的概率分布。 可以看到二者定义有一个共同点,即先验概率是不依靠观测数据的概率分布,也就是与其他因素独立的分布。所以可以用 \(P(θ)\) 表示。

自然语言处理(十四)——隐马尔科夫模型(HMM)初步理解

浪尽此生 提交于 2020-01-08 12:12:49
一、前言 本文主的目的是对隐马尔科夫模型进行初步的理解,也就是明白这个隐马尔科夫模型到底是个什么东西,明报这个隐马尔科夫模型到底有什么用。至于怎么利用这个马尔科夫模型做一个解决语音识别领域问题的小成品,本文还没有涉及,本人水平有限,正处在小白学习的阶段,因此有什么错误的地方,望各位不吝赐教。下面进入正题,这里用知乎一位答主的例子黄以及志洪老师课程来理解隐马尔科夫模型。 二、骰子案例来理解HMM 一般地,一个HMM记为一个五元组μ=(S,K,A,B,π),其中,S为状态的集合,K为输出符号的集合π,A和B分别是初始状态的概率分布、状态转移概率和符号发射概率。为了简单,有时也将其记为三元组μ= (A,B,π)。 下面用骰子这个例子来对应一下五元组。 下面这三个骰子分别是正方体骰子(记为D6,有六个面,每个面的概率都是1/6),正四面体骰子(记为D4,每个面的概率都是1/4),正八面体骰子(记为D8,每个面的概率都是1/8)。 五元组中S对应的就是三种骰子{D6,D4,D8} 五元组中K对应的就是三种骰子能够投掷出的结果{1,2,3,4,5,6,7,8} 五元组中π是一个向量,对应的就是人开始掷骰子,拿到哪个骰子的概率。显而易见,拿到每个骰子的概率都是1/3。因此π= 五元组中A是状态转移概率,首先,写这个例子的答主非常细致,思维非常缜密,下面一个马尔科夫链来直观看转移状况。 因此A =

ReID DAY2

醉酒当歌 提交于 2020-01-07 22:37:35
这是第二天的学习,这篇随笔相关的也是论文里的3.1的一些学习要点。今天有事,晚上才开始学习,每一天也要不断努力去巩固呀! (1) 表征学习(Representation Learning) : 表征学习可以视为特征学习,而特殊学习的分类又与机器学习相似,分为监督式特征学习和无监督式特征学习,监督式特征学习如神经网络,即你通过足够的训练让这个网络可以判断出事物是什么,达到高的辨别率和完成度。无监督式特征学习是指一堆没被标记过的数据,且网络之前也没有被相关的数据训练过,但这些数据却被用来训练网络,例如各种聚类和变形。 一个好的特征学习可以帮助我们更有效的提取出数据的信息从而用于分类或预测。但深度神经网络虽然可以有效地学到数据丰富的特征,但特征难以解读。通常神经网络层数越多,训练成本也越高。 相关网址: https://www.jiqizhixin.com/graph/technologies/64d4c374-6061-46cc-8d29-d0a582934876 (2) Softmax激活函数(归一化指数函数) : 下面解释一下softmax函数。 首先,我们知道概率有两个性质:1)预测的概率为非负数;2)各种预测结果概率之和等于1。 而softmax就是将在负无穷到正无穷上的预测结果按照这两步转换为概率的 第一步:将预测结果转化为非负数,利用exp(x)指数函数

NLP基础:语言模型

萝らか妹 提交于 2020-01-07 14:16:04
什么是语言模型 语言模型旨在为语句的联合概率函数建模,是用来计算一个句子概率的模型,对有意义的句子赋予大概率,对没有意义的句子赋予小概率,也就是用来判断一句话是否是人话的概念。这样的模型可以用于NLP中的很多任务,如机器翻译、语音识别、信息检索、词性标注以及手写识别等。语言模型考虑两个方面的子任务(以“How long is a football game?”为例): 句子中的词序:“How long game is a football?” 句子中的词义:“How long is a football bame?” 语音识别 举例: “厨房里的食油用完了”和“厨房里的石油用完了” 文本翻译 举例: “you go first”:“你走先”和“你先走” 给定一个句子的词语序列: 如果假设句子中的每个词都相互独立,则整体的句子概率为: 然而,句子中的每一个词的含义均与前面的词紧密相关,所以实际的语言模型概率可以通过条件概率计算为: 求解上式中的条件概率: 这样就存在两个 问题 : 参数空间太大 :条件概率 P ( W k ∣ W 1 , W 2 , . . . , W k − 1 ) P(W_{k}|W_{1},W_{2},...,W_{k-1}) P ( W k ​ ∣ W 1 ​ , W 2 ​ , . . . , W k − 1 ​ ) 的可能性太多,计算开销巨大

第二章 利用用户数据

天涯浪子 提交于 2020-01-06 23:21:01
文章目录 第二章 利用用户数据 2.1 用户行为数据简介 2.2 用户行为分析 2.4 基于邻域的算法 基于用户的协同过滤 基于物品的协同过滤 2.5 隐语义模型(Latent factor model) 2.6 基于图的模型 第二章 利用用户数据 基于用户行为分析的推荐算法称作 协同过滤 算法 2.1 用户行为数据简介 用户行为数据最简单的存在形式是 日志 . 用户行为按反馈的明确性分为 显性反馈行为 和 隐性反馈行为 .如果按反馈的方向还可以分为 正反馈 和 负反馈 . 一个用户行为可以用6部分表示: 产生行为的用户,行为的对象,行为的种类,产生行为的上下文,行为的内容和权重. 按照反馈的明确性分,可分为显性反馈和隐性反馈 正反馈(用户喜欢该商品)和负反馈(用户不喜欢该商品) 2.2 用户行为分析 互联网上的很多数据分布都满足 长尾分布f(x)=ax^k ,也就是少部分物品占据了大多数出现次数 用户行为数据同时也满足长尾分布的规律,即物品流行度和用户活跃度均满足长尾分布。(物品流行度指对物品产生过行为的用户总数。用户活跃度指用户产生过行为的物品总数。)用公式表达即: fi(k)为被k个用户产生过行为的物品数;fu(k)为对k个物品产生过行为的用户数。 用户越活跃,越趋向于浏览冷门的物品. 学术界对协同过滤算法进入了深入研究,提出了很多方法,比如基于邻域的方法、隐含义模型