CDA 数据分析师 level1 part 3

孤人 提交于 2019-12-06 12:33:33

数据分析师

 
 
 

数据分析师

抽样分布及参数估计


 

随机的基本概念

随机试验

随机试验是概率论的一个基本概念。概括地讲,在概率论中把符合下面三个特点的试验叫做随机试验:
●可以在相同的条件下重复的进行。
●每次试验的可能结果不止一个,并且能事先明确试验的所有可能结果。
●进行一次试验之前不能确定哪一个结果会出现。

随机事件
在概率论中,随机事件(或简称事件)指的是一个被赋予机率的事物集合,也就是样本空间中的一个子集。简单来说,在一次随机试验中,某个特定事件可能出现也可能不出现;但当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。

随机变量
设随机试验的样本空间

S={e},X=X{e}

是定义在样本空间S上的单值实值函数,称X为随机变量。

正态分布的图像形式

既然介绍变量的分布情况,就要介绍一下正态分布。首先,正态分布是关于均值左右对称的,呈钟形,如下图所示。其次,正态分布的均值和标准差具有代表性只要知道其均值和标准差,这个变量的分布情况就完全知道了在正态分布中,均值=中位数=众数。

 

抽样分布

中心极限定理

从均值为μ,方差为

\sigma^2

的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为

\sigma^2

/n的正态分布。

根据中心极限定理,我们知道如果做很多次抽样的话会得到很多个样本均值,而这些样本均值排列起来会形成正态分布,他们的平均数是μ,标准差是

\sigma

\sqrt{n}

。换句话说,有约68%的样本均值会落在μ±

\sigma

\sqrt{n}

之间,有约95%的样本均值会落在μ±2

\sigma

\sqrt{n}

之间,有约99.7%的样本均值会落在u±3

\sigma

\sqrt{n}

之间

把上述说法稍微转换一下就变成:有68%的

\overline{x}

±

\sigma

\sqrt{n}

会包含着μ,有95%的

\overline{x}

±2

\sigma

\sqrt{n}

会包含着μ,有99.7%的

\overline{x}

±3

\sigma

\sqrt{n}

会包含着μ,而这就是抽样和估计最根本的道理。

我们从全体之中以随机抽样方式抽取n个样本,取得样本观察值,计算它们的平均数,然后加减两倍的

\sigma

\sqrt{n}

得到一组上下区间,然后说:我们有95%的信心,这个上下区间一定会包含着全体的平均数μ如果我们仍不放心的话,可以用加减三倍的

\sigma

\sqrt{n}

,那么这组区间包含着p的置信度就有99.7%。

点估计

用样本平均数

\overline{x}

来估计总体的平均数

\mu

称为点估计。点估计命中目标的机会是极低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事,所以我们除了点估计,还要用区间估计。根据中心极限定理和正态分布的特性我们知道

\overline{x}

±

\sigma

\sqrt{n}

这个区间包含着全体平均数u的机会有68%(为了简洁表达,我们后文省去“约”),

\overline{x}

±2

\sigma

\sqrt{n}

的机会有95%,而

\overline{x}

±3

\sigma

\sqrt{n}

的机会有99.7%!真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确的程度,而这68%,95%,99.7就称做是置信水平。说得更确切一点,以95%置信水平为例,它的意思是:如果我们进行一百次独立的抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数

\mu

实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着p的机会是95%,置信水平越高,估计的区间也就越宽,这是高置信水平所必须付出的代价。

区间估计

刚刚提到过一个好的估计必须既准又稳,我们用

\overline{x}

来估计

\mu

,如果做很多次的话,会有很多个

\overline{x}

。中央极限定理已经给我们保证,这些

\overline{x}

的平均数会等于

\mu

,所以是[准]的估计已无问题,但是这些

\overline{x}

是否都靠近在一起,称得上是「稳」呢?这就要看这些的标准差了。我们已经知道

\overline{x}

的标准差是

\overline{x}

±

\sigma

\sqrt{n}

,其中

\sigma

是全体的标准差,n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。其次,σ是全体数据的标准差,我们并不知道它到底是多少,在区间估计里我们也需要用到它因此为了要知道估计的准确程度,连全体资料的也要一起估计才行。至少有两种方法来估计,一是用样本观察值的标准差S,

S^2

的定义是:

 
 

S^2=\frac{\sum^n_{i=1}(x_i-\overline{x})^2}{n-1}

本章要求我们对抽样估计的理论、抽样的多种组织形式的掌握。确定必要样本容量的原因,必要样本容量的影响因素。明确概率统计的各个知识点与业务环境、数据分析三者间的对应关系。

 

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!