概率论

概率论中的名词解释(个人理解,非官方)- No1

被刻印的时光 ゝ 提交于 2020-03-23 10:43:03
各种名词让人看的眼花缭乱,其实把各种名词的含义理解清楚,才是学习概率论的第一步!!!comeon baby!! 走起!! 样本空间: 你目前做的试验可能出现的所有情况组成一个集合,这个集合就是样本空间。比如:你目前正在做抛硬币试验,那么集合S:{正面,反面,竖起来了}就是这个试验的样本空间。 样本点: 组成样本空间中每一个元素就是一个样本点。比如:正面、反面、竖起来了都是样本点。 随机事件: 千万不要把“随机事件”当成N次试验的其中的一次,那是大错特错!!!"随机事件"是一个集合(样本空间的子集),同样拿硬币试验举例子,我们把抛硬币正面朝上叫做一个随机事件,用很高达上的数学符号表示就是这样的"A:{t|t="正面"}",你没看错,这个集合就是抛硬币试验的一个随机事件。简称: 事件。 做实验的过程中,如果出现了正面朝上,我们叫做: 这一事件发生 。 基本事件: 还记得前面的样本点吗?如果一个随机事件,仅包含一个样本点,那就是基本事件了!!!比如抛硬币试验有三个基本事件:A1:{t|t="正面"},A2:{t|t="反面"},A3:{t|t="竖起来了"}。 必然事件、不可能事件: 样本空间为必然事件,空集为不可能事件。 --------------------------------------------------------啰嗦模式开启---------------------

5.机器学习之朴素贝叶斯详解

强颜欢笑 提交于 2020-03-18 01:11:41
本篇博客主要详细介绍朴素贝叶斯模型。首先贝叶斯分类器是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类器。而朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。并且,朴素贝叶斯算法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。但由于该算法以自变量之间的独立(条件特征独立)性和连续变量的正态性假设为前提(这个假设在实际应用中往往是不成立的),就会导致算法精度在某种程度上受影响。 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,是经典的机器学习算法之一。最为广泛的两种分类模型是决策树(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。和决策树模型相比,朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。 历史背景解读: 18世纪英国数学家托马斯·贝叶斯(Thomas Bayes,1702~1761)提出过一种看似显而易见的观点:

《为什么》之概率论和因果关系

心不动则不痛 提交于 2020-03-17 05:45:42
因果关系不能被简化为概率。不能使用概率提高来定义因果关系,如X提高了Y的概率,就说X导致了Y。如:鲁莽驾驶会导致交通事故,吸烟引发肺癌等。前者只是增加了后者发生的可能性,而非必然会让后者发生。如同啤酒和尿布,也如同冰激淋热销与犯罪率提高一样,都属于相关,还不能证明是因果。建构表达式P(Y|X,K=k)>P(Y|K=k),其中K代表背景变量。事实上,如果我们把温度作为背景变量,那么这个表达式的确适用于冰激凌的例子。例如,如果我们只看温度为30℃的日子(K=30),我们就会发现冰激凌的销售和犯罪率之间不存在任何残留的关联。只有把30℃的日子和0℃的日子进行比较,我们才会产生概率提高的错觉。 条件概率只能表达我们观察到了X,那么Y的概率就提高了,不能表达为X提高了Y的概率。因为可能X和Y都是果,真正的因是Z,是Z的变化导致X提高,同时也是Z的变化导致了Y的提高。条件概率只是因果关系的第一层,即关联,通过数据的观察,发现了某种关联,还不能确定是因果。 如果P(Y|do(X))>P(Y),那么我们就可以说X导致了Y。但这个对比是困难的,如一个人没有抽烟的时候,没得肺癌,抽烟了,得了肺癌,可以说抽烟导致了肺癌,但抽烟导致肺癌的这个关系的概率就不得而知了,因为还有很多其他的因素,毕竟do抽烟的同时也do了很多其他的事情,比如环境,比如饮食习惯,行为习惯等等。

t分布, 卡方x分布,F分布

非 Y 不嫁゛ 提交于 2020-03-12 02:32:01
T分布:温良宽厚 本文由“医学统计分析精粹”小编“Hiu”原创完成,文章采用知识共享Attribution-NonCommercial-NoDerivatives 4.0国际许可协议(http://creativecommons.org/licenses/by-nc-nd/4.0/)进行许可,转载署名需附带本号二维码,不可用于商业用途,不允许任何修改,任何谬误建议,请直接反馈给原作者,谢谢合作! 命名与源起 “t”,是伟大的Fisher为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。 Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。因为行业机密,酒厂不允许他的工作内容外泄,所以当他后来将其发表到至今仍十分著名的一本杂志《Biometrika》时,就署了student的笔名。所以现在很多人知道student,知道t,却不知道Gosset。(相对而言,我们常说的正态分布,在国外更多的被称为高斯分布……高斯~泉下有知的话,说不定会打出V字手势~欧耶!) 看懂概率密度图 这一点对于初学者尤为重要,相信还是有不少人对正态分布或者t分布的曲线没有确切的理解。 首先,我们看一下频率分布直方图,histogram:

概率论总结

你。 提交于 2020-03-08 09:31:15
概率论总结 概率论各章关系   首先数学的发展使得我们对于确定的现象的描述已经可以相当精确了,但是还有一部分的现象是“说不清楚的”,这种说不清楚的性质就是有一定的随机性,为了更好地描述这一性质概率由此而生,而研究概率的性质的学科概率论也应运而生。而早期的概率论用于描述的事情很是简单,比如说掷硬币的概率,抽彩的概率所以早期的概率称之为“古典概率”,是基于这样两个事实的:1、基本事件是等可能发生的2、组成全体的基本事件是有限的。而后随着对于随机现象的进一步的深入的认识我们发现很多的事情的基本事件是无法穷举的所以产生了,但是为了,描述上的形象形成了基于几何性质的概率——几何概率。这样对于可列无穷以及不可列事件对应于不同的图形来描述就更浅显易懂了。比如说射箭的中环的概率。只不过这种的概率依旧是建立在有面积的地方是均匀分布的前提之下的——即基本事件对应的概率是一样的,或者说面积一样的区域块的概率一样。当然这种均匀性是我们假设的条件,如果这一条件不成立,也就是第三阶段的现代概率论雏形。我们引入了概率的公理化定义,在测度论上定义概率是在可测空间上的对应于任何一个子集的实值集函数。于是研究了在这个空间上的对应于集合的几种性质以及运算法则。   为了更好的研究概率我们在概率空间定义了随机变量并研究了在这个基础之上的概率的随着随机变量的不同取值的分布情况,所以有了随机变量(离散

统计1:概述

て烟熏妆下的殇ゞ 提交于 2020-03-07 06:57:13
概率论是人们在长期实践中发现的理论,是客观存在的。自然界和社会上发生的现象是多种多样的,有一类现象,在一定条件下必然发生,称作确定性现象,而概率论研究的现象是不确定性现象,嗯嗯,醒醒,概率论研究的对象是 随机现象 。那什么是随机现象呢?在个别试验中呈现出不确定性,而在大量重复实验中呈现出固有规律性的现象,称作随机现象,在大量重复实验中所呈现的固有规律,是统计规律性,也就是概率。 一,概率和频率 在提到概率之前,不得不说频率。对于一个随机事件来说,在一次试验中可能发生,也可能不发生,那么,如何表征事件在一次试验中发生的可能性大小呢?为了解答这个问题,引入了频率。频率描述了事件发生的频繁程度,频率越大,事件发生的越频繁,这意味着事件在一次试验中发生的可能性越大。我们定义,概率表征事件在一次试验中发生的可能性大小,因此,可从频率引出概率。 大数定理和中心极限定理是概率论的基本理论。大数定理论证了频率具有稳定性,中心极限定理表明了正态分布是普遍适用的。 概率是事件的固有规律,必须是稳定的一个数值,频率具有稳定性吗?在长期实践中,当试验次数不断增大时,事件发生的频率稳定在一个值附近,这一客观事实证明频率具有稳定性。 伯努利大数定理 用数学公式证明了频率的稳定性,因此,在实际应用中,当试验次数很大时,可以用事件的频率来代替事件的概率,用于表征事件发生的可能性大小。

第一章 概率论的基本概念 1.4 古典概型

删除回忆录丶 提交于 2020-02-28 12:44:48
1.4 古典概型 这个高中都学过,概念什么的就简单提一下。主要是练题,我会单独写一个排列组合的方法汇总。 古典概型: <1> 试验的样本空间只包含有限个元素 <2> 试验中每个基本事件发生的可能性是相同的 可用公式表示为: 基本模型 例1: 例 2: <1> 4 个人等可能的分配到2个房间里有几种情况? 隐含大前提:每个人都有房间。 所以这时我们让人去选房间,每个人都有2种选择。一共有 2 4 2^{4} 2 4 种情况。 <2> 4个人平均分配到2个房间里有几种情况? 隐含大前提:每个房间都有2个人。 所以我们让房间去选人,每个房间选2个人。一共有 C 4 2 C_4^2 C 4 2 ​ C 2 2 C_2^2 C 2 2 ​ = 6 种情况。 例 3: 这个P(A),P(B),P(AB)的概率需用除法向下取整的方法先算出了。 例4: 鞋如果是单只的话记得要分左右。 几何概型 会面问题: 练1: <1>随机挑选一个3位数,其含有因子3的概率为? <2> 这个三位数中恰有两个数相等的概率 练2: 已知函数 f ( x ) = − x 2 + a x − b , f(x)=−x^2+ax−b, f ( x ) = − x 2 + a x − b , 若a,b都是从区间 [ 0 , 4 ] [0,4] [ 0 , 4 ] 中随机选取的数, 求 f ( 1 ) > 0 f(1)>0 f

02-27 朴素贝叶斯

柔情痞子 提交于 2020-02-28 07:06:37
文章目录 朴素贝叶斯 朴素贝叶斯学习目标 朴素贝叶斯引入 朴素贝叶斯详解 朴素贝叶斯构造 朴素贝叶斯基本公式 朴素贝叶斯参数估计 特征值为离散值 特征值为稀疏的离散值 特征值为连续值 三种不同的朴素贝叶斯 多项式朴素贝叶斯 伯努利朴素贝叶斯 高斯朴素贝叶斯 朴素贝叶斯流程 输入 输出 流程 朴素贝叶斯优缺点 优点 缺点 小结 朴素贝叶斯   朴素贝叶斯是基于贝叶斯公式与特征条件独立假设的分类方法(注:贝叶斯公式是数学定义,朴素贝叶斯是机器学习算法)。朴素贝叶斯基于输入和输入的联合概率分布,对于给定的输入,利用贝叶斯公式求出后验概率最大的输出 y y y 。即可以总结为以下三点 已知类条件概率密度函数表达式和先验概率 利用贝叶斯公式转换成后验概率 根据后验概率大小进行决策分类 朴素贝叶斯学习目标 朴素贝叶斯构造 朴素贝叶斯基本公式 朴素贝叶斯参数估计 多项式朴素贝叶斯、伯努利朴素贝叶斯、高斯朴素贝叶斯 朴素贝叶斯流程 朴素贝叶斯优缺点 朴素贝叶斯引入   假设现在有一个有两个类别的鸢尾花数据集,并且已经知晓每个数据的分类情况,并且假设数据的分布如下图所示。 # 朴素贝叶斯引入图例 from matplotlib . font_manager import FontProperties import matplotlib . pyplot as plt from sklearn

[机器学习] 朴素贝叶斯分类

荒凉一梦 提交于 2020-02-27 14:26:22
贝叶斯决策理论 一个数据集,分为两类,其中每个样本的分类我们都已知晓 一个新的点 ( x , y ) (x, y) ( x , y ) ,其分类未知。 按照什么方式来决定将这个点分到一类中呢?我们提出如下规则: 如果 p 1 ( x , y ) > p 2 ( x , y ) p_1(x,y)>p_2(x,y) p 1 ​ ( x , y ) > p 2 ​ ( x , y ) ,则 ( x , y ) (x,y) ( x , y ) 为红色( p 1 p_1 p 1 ​ )一类。 如果 p 2 ( x , y ) > p 1 ( x , y ) p_2(x,y)>p_1(x,y) p 2 ​ ( x , y ) > p 1 ​ ( x , y ) ,则 ( x , y ) (x,y) ( x , y ) 为蓝色( p 2 p_2 p 2 ​ )一类。 贝叶斯决策理论核心思想 :选择具有最高概率的决策。 朴素贝叶斯分类 正式定义 设 x = x= x = { a 1 , a 2 , . . . , a m a_1, a_2,...,a_m a 1 ​ , a 2 ​ , . . . , a m ​ } 为一个待分类项, a i a_i a i ​ 为 x x x 的每一个特征属性 有类别集合 C = C= C = { y 1 , y 2 , . . . , y n y_1, y_2

再次复习概率论与数理统计之频率与概率

回眸只為那壹抹淺笑 提交于 2020-02-20 17:47:56
由于新型冠状病毒,意外把春节假期延长了。政府号召少出门,只能每天宅在家里了。春节2020-1-22下午回家--2020-2-2日,共11天,期间完成了网络原理课程的知识,只能说是顺了一遍,从今天做题上来看,这种方式其实是不能深刻理解知识点的,所以还得通过做题,强化一下。以后将会以考点的形式记录网络原理的知识点过程。 2-3日开始看概率论的课后题,很是吃力,不会的东西,还是太多。峁诗松的不错,但通过做课后题的试,很多不明白,也找不到重点,看时间吧及掌握的情况吧,可能的复工时间是2-9日,那么利用这几天的时间,把概率论的基本知识再顺一遍,这次以慕客为纲,因为慕客(浙大课程)比较突出重点。 尽自己的努力,结果其实没有那么重要!还是那句话 "坐等不会有良机“,加油! 同时也希望疫情早点过去,还大家一个正常的生活。中国加油,武汉加油! 自己每天关注疫情,每天都有人不幸离开,拿2-3日来说,就有64个人离世,确诊的人一直是上升的趋势,希望的拐点,还是没有到来。 疫情形势严峻。于人个来说,可能就是命!尤其是面临无法掌控的情形时。武汉的朋友应该更深有体会。既然我们都是没有遇到无法掌控的幸运儿,更应珍惜机会,努力提升自己认知,这可能是从另一个层面解释自考或软考的意义吧! 绪: 结合上面的维恩图,重点看下A-B=A-AB 三个事件的关系: 至少有一个发生