(1)离群点 如何识别离群点? 1、Q-Q图,落在置信区间带外的点即可被认为是离群点。 2、一个粗糙的判断准则:标准化残差值大于2或者小于2的点可能是离群 3、library(car) rstudent unadjusted p-value Bonferonni p (2)高杠杆值点 它们是由许多异常的预测变量值组合起来的,与响应变量值没有关系 高杠杆值的观测点可通过帽子统计量(hat statistic)判断 hat.plot <- function(fit){
(3)强影响点 强影响点,即对模型参数估计值影响有些比例失衡的点。例如,若移除模型的一个观测点时模型会发生巨大的改变,那么你就需要检测一下数据中是否存在强影响点了 cutoff <- 4/(nrow(states) - length(fit$coefficients) - 2)
4、如何对线性模型进行改进? 1、删除观测点; 删除离群点通常可以提高数据集对于正态假设的拟合度,而强影响点会干扰结果,通常也会被删除。删除最大的离群点或者强影响点后,模型需要重新拟合
Box-Cox正态变换 library(car)
library(car)
|
|