数理统计

信息论和数理统计——机器学习基础

Deadly 提交于 2020-03-26 18:11:44
目录 一、信息论 熵 信源 信息量 信息熵 条件熵 信息增益 信息增益比 相对熵 最大熵原理 二、数理统计 与概率论的区别 统计推断方式一:参数估计 统计推断方式二:假设检验 一、信息论 信息论处理的是客观世界中的不确定性。 通信的基本问题是在一点精确地或近似地复现在另一点所选取的消息。在生活中,信息的载体是消息。 不同的消息带来的信息在直观感觉上不是完全相同的,比如“马云获得奥赛健美冠军”比“施瓦辛格获得奥赛健美冠军”的信息要大得多。 因为前者是小概率事件,而后者我们已经习以为常。不确定性越大的消息提供的信息量越大。 熵 一个系统内在的混乱程度 信源 产生消息(符号)、消息序列和连续消息的来源。 信息量 信息多少的量度 在信息论中,如果事件A发生的概率为 \(p(A)\) ,则这个事件的自信息量定义为 \(h(A)=−log_2p(A)\) 比如:当 \(p(A\) )为1/1000得出信息量约为10,当 \(p(A)\) 为1/2得出的信息量约为1 信息熵 信息熵是信源可能发出的各个符号的自信息量在信源构成的概率空间上的统计平均值。 根据单个事件的自信息量可以计算包含各个符号的信源的信息熵 如果一个离散信源X包含n个符号,每个符号 \(a_i\) 的取值为 \(p(a_i)\) ,则X的信源熵为 \(H(X)=− \sum_{i=1}^np(a_i)log_2p(a_i)\)

《数理统计》(第二周)统计量及其分布

眉间皱痕 提交于 2020-02-27 14:32:53
一. 统计量 不含任何未知参数的样本的函数称为统计量。它是完全由样本决定的量。 定义:设 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X 1 ​ , X 2 ​ … X n ​ 是来自总体 X X X 的一个样本, g ( X 1 , X 2 … X n ) g(X_{1},X_{2}…X_{n}) g ( X 1 ​ , X 2 ​ … X n ​ ) 是 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X 1 ​ , X 2 ​ … X n ​ 的函数,若 g g g 中不含未知参数,则称 g ( X 1 , X 2 … X n ) g(X_{1},X_{2}…X_{n}) g ( X 1 ​ , X 2 ​ … X n ​ ) 是一个统计量。 设 X 1 , X 2 … X n X_{1},X_{2}…X_{n} X 1 ​ , X 2 ​ … X n ​ 是来自总体 X X X 的一个样本, x 1 , x 2 … x n x_{1},x_{2}…x_{n} x 1 ​ , x 2 ​ … x n ​ 是一个样本的观察值,则 g ( x 1 , x 2 … x n ) g(x_{1},x_{2}…x_{n}) g ( x 1 ​ , x 2 ​ … x n ​ ) 是统计量 g ( X 1 , X 2 … X n ) g(X_{1

机器学习基础-数理统计

三世轮回 提交于 2020-02-24 05:58:47
数理统计与参数估计 统计量 期望/方差/偏度/峰度 协方差和相关系数 独立和不相关 期望 数学期望(均值)是实验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。 离散型 如果随机变量只取得有限个值或无穷能按一定顺序一一列出,其值域为一个或若干个有限或无限区间 连续的 设连续性随机变量X的概率密度函数为f(x),若积分绝对收敛,则称积分的值 为随机变量的数学期望,记为E(X) 期望的性质 无条件成立 E(kX) = kE(X) E(X + Y) = E(X) + E(Y) 若X和Y相互独立 E(XY) = E(X)E(Y) 反之不成立,若E(XY)=E(X)E(Y),只能说明X和Y不相关 方差 用来度量随机变量和数学期望之间的偏离程度(统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数) 标准差、方差越大,离散程度越大 方差的性质 D(CX) = C^2*D(X), D(X+C)=D(X) D(X+Y) = D(X) + D(Y) + 2Cov(X,Y) 当X, Y 是不相关的随机变量则:D(X+Y)=D(X)+D(Y) 协方差:Cov(X,Y) = E{[X - E(X)][Y - E(Y)]} 方差就是协方差的一种特殊情况,即两个变量相同 离散型方差计算: 展开后 连续性方差计算: 展开后 随机变量的期望和方差 离散型: 连续型:

再次复习概率论与数理统计之频率与概率

回眸只為那壹抹淺笑 提交于 2020-02-20 17:47:56
由于新型冠状病毒,意外把春节假期延长了。政府号召少出门,只能每天宅在家里了。春节2020-1-22下午回家--2020-2-2日,共11天,期间完成了网络原理课程的知识,只能说是顺了一遍,从今天做题上来看,这种方式其实是不能深刻理解知识点的,所以还得通过做题,强化一下。以后将会以考点的形式记录网络原理的知识点过程。 2-3日开始看概率论的课后题,很是吃力,不会的东西,还是太多。峁诗松的不错,但通过做课后题的试,很多不明白,也找不到重点,看时间吧及掌握的情况吧,可能的复工时间是2-9日,那么利用这几天的时间,把概率论的基本知识再顺一遍,这次以慕客为纲,因为慕客(浙大课程)比较突出重点。 尽自己的努力,结果其实没有那么重要!还是那句话 "坐等不会有良机“,加油! 同时也希望疫情早点过去,还大家一个正常的生活。中国加油,武汉加油! 自己每天关注疫情,每天都有人不幸离开,拿2-3日来说,就有64个人离世,确诊的人一直是上升的趋势,希望的拐点,还是没有到来。 疫情形势严峻。于人个来说,可能就是命!尤其是面临无法掌控的情形时。武汉的朋友应该更深有体会。既然我们都是没有遇到无法掌控的幸运儿,更应珍惜机会,努力提升自己认知,这可能是从另一个层面解释自考或软考的意义吧! 绪: 结合上面的维恩图,重点看下A-B=A-AB 三个事件的关系: 至少有一个发生

【概率论与数理统计】小结6 - 大数定理与中心极限定理

可紊 提交于 2020-01-24 23:42:44
注 :这两个定理可以说是概率论中最重要的两个定理。也是由于中心极限定理的存在,使得正态分布从其他众多分布中脱颖而出,成为应用最为广泛的分布。这两个定理在概率论的历史上非常重要,因此对于它们的研究也横跨了几个世纪(始于18世纪初),众多耳熟能详的大数学家都对这两个定理有自己的贡献。因此,这两个定理都不是单一的定理。不同的大数定理和中心极限定理从不同的方面对相同的问题进行了阐述,它们条件各不相同,得到的结论的强弱程度也不一样。 1. 大数定理(law of large numbers,LLN) 图1-1,伯努利(1655-1705) 大数定律可以说是整个数理统计学的一块基石,最早的大数定律由伯努利在他的著作《推测术》中提出并给出了证明。这本书出版于伯努利去世后的1713年。数理统计学中包含两类重要的问题——对概率p的检验与估计。大数定律的本质是一类极限定理,它是由概率的统计定义“频率收敛于概率”引申而来的。简单来说就是n个独立同分布的随机变量的观察值的均值$\bar{X}$依概率收敛于这些随机变量所属分布的理论均值,也就是总体均值。 举一个古典概率模型的例子:拿一个盒子,里面装有大小、质地一样的球a+b个,其中白球a个,黑球b个。这时随机地从盒子中抽出一球(意指各球有同等可能被抽出),则“抽出的球为白球”这一事件A的概率p=a/(a+b).但是如果不知道a、b的比值,则p也不知道

数理统计的基本概念

房东的猫 提交于 2020-01-16 09:57:55
See this article on my own blog https://dyingdown.github.io/2020/01/15/Mathematical-Statistics-Concepts/ 第六章 数理统计的基本概念 一、随机样本 (1)总体与个体 ​ a. 一批灯泡的全体组成一个总体,其中每一个灯泡都是一个个体。 ​ b. 一个随机变量X或其相应的分布函数 F ( x ) F(x) F ( x ) 成为一个总体。 (2)样本与样本值 ​ a. 样本容量 n n n ,样本值是每个具体的值 ​ b. 简单随机抽样:机会均等(代表性),个体相互独立(独立性) ​ c. 简单随机样本 ( X n ) (X_n) ( X n ​ ) ,简称样本,观测值称样本值 (3)定理 ​ a. 若总体X的分布函数为F(x),则样本 X 1 , X 2 , ⋯   , X n X_{1}, X_{2}, \cdots, X_{n} X 1 ​ , X 2 ​ , ⋯ , X n ​ 的联合分布函数为 F ( x 1 , x 2 , ⋯   , x n ) = ∏ i = 1 n F ( x i ) F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=\prod_{i=1}^{n} F\left(x_{i}\right) F ( x 1 ​ , x 2

概率论与数理统计(一)

南楼画角 提交于 2020-01-06 23:17:53
还不会的地方: 大数定律,第六章, 3,4章。 连续型函数的概率密度函数 离散型的比较好求,直接带值就可以,重点是连续型的。函数的概率密度函数,就是告诉你X的分布,让你求Y=g(X)的分布。 公式法求一维概率密度函数 首先根据x的区间求出y的区间, 然后根据y=g(x)求出其反函数x=h(y)和x的导数。 把x=h(y)带到X的概率密度函数里边,然后再乘一个导数的绝对值,就是Y的概率密度函数。 不过用公式法必须满足y=g(x)是处处可导的单调函数,如果不是的话,要根据定义去求。 卷积公式求二维概率密度函数 首先根据Z=f(X,Y)用x和z表示y,然后求一下y关于z的偏导。 首先一个负无穷到正无穷的积分,然后是概率密度函数,用z和 x替换y,然后乘一个偏导的绝对值,这个积分自然是关于x积分。 随机变量的数字特征 概率论的本质是研究随机变量,那么怎样研究随机变量呢? 一个方面就是随机变量的数字特征:期望,方差,协方差。 方差 怎样求方差呢?一个是根据他的定义:Dx=E(X-E(X)) 2 。就是每一个值与均值的差的平方,求期望。遇到一些函数的方差,就用方差的性质: D( C )=0 D(aX+bY=c)=a 2 X+b 2 Y;条件是X和Y要相互独立。 协方差与相关系数 定义:(X-Ex)(Y-Ey)的均值,相关系数是协方差的基础上除以一个根号下DxDy。 来源: CSDN 作者:

概率论与数理统计教学内容

≡放荡痞女 提交于 2020-01-05 22:09:13
概率论部分 Chapter 1: 随机事件及其概率 1 随机试验;样本点;样本空间 2 随机事件, 必然事件, 不可能事件, 互不相容事件, 对立事件;随机事件的关系及运算 3 概率的定义 4 概率的性质:有限可加性,减法公式,加法公式,及推论 5 条件概率及乘法公式 6 两个事件相互独立的定义及性质;多个事件相互独立的定义及性质 7 伯努利概率模型 8 全概率公式 9 贝叶斯公式 Chapter 2: 随机变量及其分布 1 随机变量;离散型随机变量;连续型随机变量 2 分布函数及性质 3 离散型随机变量的分布率及性质;连续性随机变量的概率密度函数及性质 4 常见的离散型随机变量的分布:0-1 分布;二项分布;泊松分布 5 常见的连续型随机变量的分布: 均匀分布;指数分布;正态分布 6 随机变量的函数的分布: 离散型随机变量函数的分布;连续型随机变量函数的分布(分布函数法和公式法) Chapter 3: 数字特征 1 数学期望;离散型随机变量的期望;连续型随机变量的期望;随机变量的函数的期望 2 数学期望的性质 3 方差;标准差 4 方差的性质 5 变异系数(注:不是很重要) 6 常见随机变量的期望和方差: 两点分布的期望和方差;泊松分布的期望和方差;均匀分布的期望和方差;指数分布的期望和方差;正态分布的期望和方差 Chapter 4 : 随机向量(或称多维随机变量)及其分布 1

数理统计和参数估计相关概念知识总结

梦想的初衷 提交于 2020-01-04 00:51:02
引言 为了系统地复习机器学习相关算法及基础知识,对学过的知识进行一定的整理。 正文 事件的独立性(Independence) 定义:如果事件A和事件B满足 P ( A B ) = P ( A ) P ( B ) P(A B)=P(A) P(B) P ( A B ) = P ( A ) P ( B ) ,则称事件A和事件B独立。举个例子:如果一个人语文考试通过为事件A,数学考试通过为事件B,这两个考试一点关系都没有,互不影响,所以这个人同时通过两科考试的概率就应该等于通过语文考试的概率乘以通过数学考试的概率。 既然A、B是独立的,那么就有 P ( A ∣ B ) = P ( A ) P(A | B)=P(A) P ( A ∣ B ) = P ( A ) 。过了数学考试,语文考试就稳了吗?不存在的,没有半毛钱关系。 期望(Expectation) 期望就是概率加权平均值,不多扯了,上公式。 离散型: E ( X ) = ∑ i x i p i E(X)=\sum_{i} x_{i} p_{i} E ( X ) = ∑ i ​ x i ​ p i ​ 连续型: E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X)=\int_{-\infty}^{\infty} x f(x) d x E ( X ) = ∫ − ∞ ∞ ​ x f ( x ) d x 对于编程来说

概率论与数理统计概念表达间关系原理

左心房为你撑大大i 提交于 2019-12-24 12:04:15
专业术语与日常用语差别还是挺大的。如: 在茆诗松教授主编的《概率论与数理统计教程》(2011年第2版)中有这么一个用于讲解事件(集合)之间相等关系的例题: 假设口袋中有a个黑球与b个白球(a与b均大于零)。现在我们要将这些球一一无返回地摸出来,直到摸完为止。于是,以A记事件“最后摸出的几个球全是黑球”,以B记事件“最后摸出的一个球是黑球”。则粗看好像A≠B,但只要注意到“几个”至少包含“一个”这种情况,则明显有A发生必然导致B发生,亦即A包含于B;反之,B发生也必然导致A发生,亦即B包含于A。由此,根据事件间相等的定义,可得A=B。 我觉得这个例题有问题,因为在我们的日常用语中,“几个”绝对不包含“一个”这种情况。例如,“我们几个一起逛街”这句话中绝对不隐含“我自己逛街”这层含义。如此,“最后摸出的几个球全是黑球”与“最后摸出的一个球是黑球”这两句话就不可能等价了,亦即A≠B。 注: 其实理解专业术语的表达,先要明白事件具体含义及概念间的表达间关系原理。 先说说专业术语的“事件”的具体含义:1、事件A是样本空间S的一个子集。2、当子集A中某个样本点出现了,就说A发生了。3、事件A可以用集合来描述也可以用明白无误的语言来描述。4、必然事件即整个样本空间Ω,不可能事件就是空集∅,单个元素构成的子集称为基本事件。 从“事件”这个专业术语的含义就很好理解“最后一个球是黑球与最好几个球是黑球