R语言回归分析-异常观测值
R语言回归分析 回归分析可以说是统计学的核心,它其实是一个广义的概念,通指那些用一个或多个预测变量(也称自变量或解释变量)来预测响应变量(也称因变量、效标变量或结果变量)的方法。通常,回归分析可以用来挑选与响应变量相关的解释变量,可以描述两者的关系,也可以生成一个等式,通过解释变量来预测响应变量。 最小二乘法回归是通过预测变量的加权和来预测量化的因变量,其中权重是通过数据估计而得的参数,目标是通过减少响应变量的真实值与预测值的差值来获得模型参数(截距项和斜率),具体而言,即使得残差平方和最小。下面将通过几篇博客介绍回归分析,这是第二篇:异常观测值。 8.4.1 离群点 离群点是指那些模型预测效果不佳的观测点。它们通常有很大的、或正或负的残差(Y[i] –Ŷ[i] 。 正的残差说明模型低估了响应值,负的残差则说明高估了响应值。下面是查看离群点的两种方法: QQ图:在之前通过QQ图,落在置信区间带外的点即可被认为是离群点 标准化残差:另外一个粗糙的判断方法是:标准化残差值大于2或者小于–2的点可能是离群点,需要特别关注。 这里介绍的是 car 包里面的 outlierTest() 函数,该函数可以求得最大标准化残差绝对值Bonferroni调整后的p值,注意,该函数只是根据单个最大(或正或负)残差值的显著性来判断是否有离群点。若不显著,则说明数据集中没有离群点;若显著