偏态分布

数据的偏态分布

匿名 (未验证) 提交于 2019-12-03 00:22:01
https://www.cnblogs.com/gczr/p/6802998.html 在数据分析中如果某个数据服从正态分布的话,我们可以利用正态分布的性质做出很多有意义的分析,例如t-检验。。 一、何为数据的偏态分布? 频数分布有正态分布和偏态分布之分。正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。 偏态分布 是指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值小的一侧,称为 正偏态分布 ;集中位置偏向数值大的一侧,称为 负偏态分布 。 如果频数分布的高峰向左偏移,长尾向右侧延伸称为 正偏态分布 ,也称 右偏态分布 ;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则成为 负偏态分布 ,也称 左偏态分布 。 峰左移,右偏,正偏 峰右移,左偏,负偏 偏态分布只有满足一定的条件(如样本例数够大等)才可以看做近似正态分布。 与正态分布相对而言,偏态分布有两个特点 :   一是左右不对称(即所谓偏态);   二是当样本增大时,其均数趋向正态分布。 二、构建模型时为什么要尽量将偏态数据转换为正态分布数据?   数据整体服从正态分布,那样本均值和方差则相互独立。正态分布具有很多好的性质, 很多模型假设数据服从正态分布 。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数