对数据的处理是进行数据分析的基础,为保证分析结果的可靠性和正确性,对数据的处理需要考虑三点: 首先,数据录入的准确性以及异常值的处理; 其次,缺失值的处理; 最后,数据是否符合所使用的的分析方法的使用条件。 一、异常值 1.异常值的定义 异常值(outlier)有单变量异常值(univariate outlier)与多变量异常值(multivariate outlier)两种。 2.异常值的来源 (1)过程型错误。如录入、编码或者缺失值定义错误。 (2)异常事件。此时视情况与研究目的进行保留或删除。 (3)异常观测。研究者无法解释的观测值。 (4)各变量都正常,组合起来很异常,即多变量异常值。此情况视分析方法决定是否保留。 3.异常值的检测 A.单变量异常值的检测 (1)标准分检测异常值 样本量<=80,标准分>=2.5 & <=2.5视为异常值; 样本量>80,可提高标准分的临界值,最高为4。 spss操作: 分析>描述统计>描述>将标准化值另存为变量 (2)盒式图 小于下四分位数减去1.5倍四分位距(Q1-1.5*IQR)或大于上四分位数加1.5倍四分位距(Q3+1.5*IQR)的即为异常值。 1.5-3倍四分位距之间的异常值为温和异常值(mild outliers); 3倍四分位距之外的异常值为极端异常值(extreme outliers)。 在非异常值区间内,最值处画横线,即为箱线图的触须。 spss操作: 图形>图标构建器>选择箱图>双击第一个箱图>将变量从左侧拖动到纵轴 B.双变量异常值的检测 (1)双变量异常值一般通过散点图进行检测。 通过散点图可以初步判断两变量之间是否存在相关关系、相关趋势、是线性相关还是非线性相关以及是否存在异常值。 从下图可初步判断两变量存在线性相关,并且存在异常值。要通过置信区间新型判断,还需要借助其他软件,后续会进行介绍。 C.多变量异常值的检测 (1)马氏距离 多变量异常值可通过计算观测点的马氏距离(Mahalanobis D2)进行检测。 根据经验,小样本时把D2/df的临界值设为2.5,大样本时设为3或4,超过临界值的观测点识别为潜在异常值。 spss操作: 分析>回归>线性>放入变量>保存>标准化>马氏距离 马氏距离的结果: (2)标识异常个案 spss操作: 数据>标识异常个案>变量>放入变量> 结果: |
|
来自: 新用户1036Sd8h > 《待分类》