分享

异常值的处理只有删除?

 萌小芊 2016-10-31

异常值的出现在实际数据分析中经常会碰到。大家往往以为异常值最简单的方式就是直接删除。
其实不然!
针对异常点的处理,有一类方法叫稳健回归。稳健回归的主要目的是检测异常点,并在异常点的情况下给出模型的稳健估计。
稳健回归

其基本思想是对不同数据点给予不同的权重,残差小的点给予较大权重,残差大的点给予较小的权重,也就是异常点的权重较小,以此来减少异常点对模型的影响。
关于稳健回归的估计方法有M估计、LTS(least trimmed squares)估计、S估计和MM估计。
1、M估计是Huber于1973年提出,是目前处理异常点问题最常用的估计方法,但是该法在存在高杠杆点时估计效果不佳。
2、LTS估计是有Rousseeuw于1984年提出,可用于处理高杠杆值问题。
3、S估计由Rousseeuw和Yashi于1984年提出,该法具有比LTS估计更高的统计效率。
4、MM估计由Yashi于1987年提出,是对S估计的进一步发展,它将M估计与LTS估计/S估计结合起来,综合上述方法的优点。
那怎样在软件中实现呢?
本期介绍两种实现稳健回归的软件,一个是SAS软件,如果你觉得编程困难,那跳过看下一个实现软件。。。
一、SAS实现
稳健回归的SAS程序主要通过PROC robustreg过程实现,语句为:

Proc robustreg <选项>;

Model 因变量=自变量;

RUN;

1
Proc robustreg命令常用的选项
method=    指定稳健估计的方法,可选的有M、LTS、S、MM四种,默认的是method=M
2
Model语句常用的选项
diagnostics 进行异常点诊断
leverage   检测并列出杠杆点
二、DPS数据处理系统(菜单操作、功能强大,推荐尝试一下
操作界面如下:

松哥:异常点的处理经常困扰大家。本期浅浅而谈,给大家介绍了一种更加科学、保留更多数据信息的稳健回归方法,让大家对其有个印象。若今后再遇到异常值处理的情况,至少能够想到有该种方法,而不仅仅是删除异常点。统计思路很重要哦。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多