统计学基础之常用统计量和抽样分布

被刻印的时光 ゝ 提交于 2020-01-24 23:41:44

目录:

一、统计量

 1、概念

2、常用统计量

二、抽样分布

 1、常见三大抽样分布


一、统计量:

1、概念:

        统计量是统计理论中用来对数据进行分析、检验的变量。在实际应用中,当我们从某个总体中抽取一个样本(X1,X2,X3......,Xn)后,并不能直接用它对总体的有关性质和特征进行推断,因为样本虽说是从总体中获取的代表,含有总体性质的信息,但还是会比较分散。当我们需要将统计的推断变成可能的,必须要把分散在样本中的信息集中起来,针对不同的目的,构造不同的样本函数,这种函数在统计学中成为统计量。

        统计量是样本的一个函数。有样本构造具体的统计量,实际是对样本所含的总体信息按照一些要求进行加工处理,把分散在样本中的信息集中都统计量的取值上。不同的统计推断问题要求构造不同的统计量。统计量是统计推断的基础,相当于概率论中的随机变量。在统计量的公式中不能依赖于总体分布的未知参数,如包含E(X),D(X)的都不是统计量。

2、常用统计量:

  一般在概率论中,将数学期望和方差等概念用‘矩’的概念描述。当n充分大时,有定理可以保证经验分布函数Fn(x)很靠近总体分布函数F(x)。所以,经验分布函数Fn(x)的各阶矩就反映了总体各阶矩的信息。通常把经验分布函数的各阶矩称为样本各阶矩。常用的样本各阶矩及其函数都是实际应用中的具体统计量。

2.1、样本均值

,反映出总体X数学期望的信息。

2.2、样本方差

,反映的是总体X方差的信息

2.3、样本变异系数

,反映出总体变异系数C的信息。其中变异系数定义为,反映出随机变量在以它的均值为单位时取值的离散程度。消除了均值不同对不同总体的离散程度的影响,用来刻画均值不同时不同总体的离散程度。可应用与投资项目的风险分析、不同群体或行业的收入差距描述中。

2.4、样本k阶矩

,称为样本k阶矩。反映了总体k阶矩的信息。m1即即样本均值。

2.5、样本k阶中心矩

,称为样本k阶中心矩。反映出总体k阶中心矩的信息。即样本方差。

2.6、样本偏度

,反映了总体偏度的信息。偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜型。若X~N(μ,σ2),则偏度为0。

2.7、样本峰度

,反映出总体峰度的信息。峰度反映了密度函数曲线在众数附近的“峰”的尖峭程度。正态随机变量X~N(μ,σ2)的峰度为0。偏度和峰度多应用在质量控制和可靠性研究中。

2.8、次序统计量

  设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量。

  则

  

  (1) 最小顺序统计量 

  (2)最大顺序统计量

  (3) 极差(Range) 

  (4)四分位极差(iql) 

  样本X1,X2,…,Xn是独立同分布的,而次序统计量X(1),X(2),…,X(n) 则既不独立,分布也不相同。 

2.9、充分统计量

 设 

 是来自分布函数 

 的样本 

 是一个统计量,如果在给定 

 的条件下,x的分布与 

 无关,则称统计量 

 为 

 的充分统计量。

一个统计量 

 是参数 

 的充分统计量,其充分必要条件是存在一个t与 

 的函数 

 和一个样本的函数 

 ,使得对于任何一个样本x和任意的 

 ,样本的联合密度函数 

 可以表示为它们的乘积,即

 


 

二、抽样分布

  抽样分布、参数估计、假设检验是统计推断的重要内容。研究统计量的性质和评价一个统计推断的优良性,完全取决于抽样分布的性质。 

  在总体X的分布类型已知时,若对任一自然数n都能导出统计量T = T(X1,X2,...,Xn)的分布的数学表达式,这种分布称为精确的抽样分布,对于样本量n较小的统计推断问题很有作用。精确的抽样分布大多是在正态总体情况下得到的。在正态总体的体检下,主要有分布,t分布,F分布。

2.1、分布

  设随机变量X1,X2,...,Xn相互独立,且Xi(i=1,2,...,n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的分布。

  自由度是统计学常用的概念,可以理解为独立变量的个数,也可理解为二次型的秩。如:Y=X2是自由度为1的分布,rank(Y)=1;Z=是自由度为n的分布,rank(Z)=n。

  分布的数学期望为E()=n,方差为D()=2n。

  分布具有可加性,即若~(n1),~(n2),且独立,则+~(n1+n2)。

  当自由度足够大时,分布的概率密度曲线趋于对称。当n--->+∞时,分布的极限分布是正态分布。

 

2.2、t分布

设随机变量X~N(0,1),Y~(n),且X与Y独立,则,记t(n).。n为自由度。t分布的密度函数是一偶函数。其密度函数与标准正态分布和很相似,都为单峰偶函数。

 

2.3、F分布

主要应用于方差分析、回归方程的显著性检验中。

设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n 的分布,随机变量,则称X服从第一自由度m,第二自由度为n的F分布,记为F(m,n)。两个自由度的位置不可互换。

如果随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。

 

2.4、样本均值的分布与中心极限定理

总体分布为正太分布的样本均值的分布。

当总体分布为正态分布N(μ,σ2)时,的抽样分布仍为正态分布,期望为μ,方差为σ2/n。

中心极限定理:设从均值μ,方差σ2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布。


 

本文参考中国人民大学出版社《统计学》第七版

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!