则判定第 组数据 为异常点.当然,这种检验会犯“判无为有”的错误,也就是 可能不是异常点,而被误判为异常点.但我们犯这种错误的概率只有 ,事先我们可以把它控制的很小.
显然,根据 分布与 分布的关系,我们也可以用 检验法完成上面的检验.若定义来*自~优|尔^论:文+网www.youerw.com +QQ752018766*
,
对给定的 ,当
时,我们拒绝假设 即判定第 组数据 为异常点。
3。2 残差及残差图检验异常值
前面定义了 ,称为残差向量,其分量形式 , ,称为第 次试验或观测的残差.特别地,对简单回归
, . .
所以, , 。
残差是最重要的一种回归诊断量,它蕴涵了有关模型基本假设的许多重要信息。残差分析就是对残差进行统计处理,从中提炼出这些信息的方法。而残差图就是残差分析中使用的基本工具。所谓残差图就是残差 对因变量 或自变量 ,或其它导出统计量(如拟合值 )的散点图,有时候也用残差对时间或对数据序数的散点图。散点图是最简单的图,尤其在简单回归中,为残差 对拟合值 的图。
所谓异常数据就是相对于其它观测值来说,具有大的残差的数据点。利用残差及残差图检验异常值的方法是用所给数据计算出残差 ,与其余观测值的残差进行比较,具有大的残差的数据点被怀疑为异常值。然后作出自变量与因变量的散点图,残差 对拟合值 的残差图以及残差 对自变量 的残差图,从图中观察,哪些远离大多数观测点的孤立的点有理由被认为是异常点。然后从数据中删除这些点,再次估计回归方程,作出 与 的散点图以及 对 的残差图,计算标准差,与删除前进行比较[3]。