总体样本方差的无偏估计样本方差为什么除以n-1
我们先从最基本的一些概念入手。
如下图,脑子里要浮现出总体样本

应该把样本


这里有一个重要的假设,就是随机选取的样本


另外,由于每个样本的选取是随机的,因此可以假设



另外,还需要知道方差另外一个性质:

还有一个,别忘了方差的基本公式:

以上的公式都很容易百度得到,也非常容易理解。这里不赘述。
2)无偏估计
接下来,我们来理解下什么叫无偏估计。
定义:设统计量


上面这个定义的意思就是说如果你拿到了一堆样本观测值,然后想通过这一堆观测值去估计某个统计量
按照这么理解,那么有偏无偏是针对你选择估计的方法所说的,它并不是针对具体某一次估计出来的估计量结果。如果方法不对,即使你恰好在某一次计算出来一个值和总体样本统计量值相同,也并不代表你选的这个方法是无偏的。为什么呢?这是因为单次
来一点题外话:
但凡是想通过有限的信息去"估计"一个整体的"量",这种情形下谈这个"估计"的方法“有偏”\“无偏”才有意义。一般来说,这种情形下,这个被估计的"量"肯定是有碍于技术或者现实情况无法严格准确获取,比如因为成本过高这些"量"无法通过穷举或者其他办法获知。否则,如果被估计的"量"很容易获取,就不需要"估计"了,采用统计方法就可以了。
如果你只是要进行简单的"统计"就能获得你想要的"量",那么没必要去关心所采用的方法是"有偏"还是“无偏";尤其是当整体信息很容易获取的情况下谈"有偏"还是“无偏"就毫无意义。比如要谈某个班级的身高的平均值,直接将身高总数除以班级人数就可以了,因为根本没必要去"估计",因为它仅仅是个"统计"问题;同样的,求一个班级的身高方差也不用任何纠结,求方差过程中除以班级人数就OK了,没有必要非常变态的研究是除以"班级总人数"还是"班级总人数-1",你要是去纠结这个,那就是吃饱了撑的了。但是,假如学校有几万人,你要统计的是整个学校所有的人的平均身高,这个时候一个一个进行统计是不现实的,反而需要使用的"估计"的方法。你采用的方法是随便抓100个人过来,将这100人总的身高数值除以100,估计出来的平均值就可以假设认为是整个学校的身高平均值,因为,你是用部分样本估计了总体样本的一个”量“,所以这个是"估计";此时,要是估计整个学校学生身高的方差,如果要想估计方法"无偏", 那就不是除以100了,而是除以99。当然,如果你是一位粗人,无所谓啥"有偏"还是“无偏"的束缚,那么你直接除以100也不会遭到嘲笑的,具体原因得继续往下看。总之,无法通过整体直接"统计"获得你想要的"量"时,你只能通过"部分样本"来做"整体样本""量"的估计时,谈估计方法的"有偏"还是"无偏"才是有意义的。
3)样本均值的无偏估计
接下来探讨一下下面的结论:
定理1:样本均值
注意:这里样本均值
这里需要看上面这张图,这里的均指的是特定某次样本集合

明显,
第一个样本(快照)均值是长这样子的:

第二个样本(快照)均值是长这样子的:

....依此类推...
试验一直进行下去,你就会有一些列估计出来的样本(快照)均值


下面验证上面的方法形成的




这么一来,就和教科书和网上的资料结果上都对上了,教科书上的公式在下面列出(

有了前面的分析,上面的教科书公式就很好理解了,注意,里头的


讨论完估计量样本




所以,样本(快照)均值的期望还是总体期望,但是,样本(快照)均值的方差却不是原来的方差了,它变成原来方差的1/n。这也容易理解,方差变小了是由于样本不是原来的样本
4)样本方差的无偏估计
定理2:样本方差

也就是需要证明下面的结论:

首先,脑子里要非常清楚,你截至目前,仅仅知道以下内容:





其中前面5个来自1),最后2个来自3)。
至于为什么是






那么为什么会导致这么个奇怪的结果,不是

仔细看上面的公式,如果,那么就应该是





还有一种情况,如果你事先就知道

---------------------------------------------------------------------------------------------------------------------------------------------
有人还是问我为什么






这个结论告诉我们,如果某个人很牛逼,他可以知道确切的总体样本均值

而上面的





总之,


------------------------------------------------------------------------------------------------------------------------------------------------------------------
统计学中还有一个"自由度"的概念。为什么是除以n-1还可以从自由度角度进行解释,具体可以参看下面百度的解释:
来源:CSDN
作者:ALTLI
链接:https://blog.csdn.net/weixin_43360801/article/details/103431326