统计学杂记 7: 这些重要概念混淆了后果十分严重!

萨拉丁123 2018-02-10

展开全文

《社工统计学杂记 7》

似曾相识燕归来

厘清几个重要概念

随着现代统计方法的引进，以及在世界一流杂志（如SSCI期刊）发表文章的压力和要求，国内社会行为科学研究者越来越多地运用定量方法写文章、做分析，真可谓“沉舟侧畔千帆过，病树前头万木春”，形势一派大好。

但是在定量分析欣欣向荣之际，也有令人担忧的问题。比如，重要词汇翻译不准确，重要概念误用和滥用…… 这些问题亟需引起同行和学人们的注意。

我曾经与国内的年轻学子讨论“内生性”问题，兜了很大一个圈子后，才意识到同学们将“自相关”理解成了“内生性”— 这是两个截然无关的概念。又如，讲到动态研究和追踪调查，国内的老师和同学都会说到“面板数据”，这是一个很糟糕的翻译。Panel 有“面”和“板”的意思，但在这儿是指“一组人”， Panel Data是指对一组人跟踪后产生的数据，所以应当翻译成“追踪数据”。用这类数据所做的分析应当称为“追踪研究”Panel Study或“动态研究”（Longitudinal Research）。“面板数据”的翻译不仅让人无法理解它是什么数据（有谁能告诉我，数据还有“面板型”？），而且正好与它所对立的“横截面数据”（Cross-sectional Data）近似，把两类有重要差异的研究搞混了。

横看成岭侧成峰，远近高低各不同。某些重要概念“似曾相识”，但在定义上却有重要区别。这些区别，需要引起我们的高度关注和重视。今天，我就掇其要，厘清几个容易搞混的概念。

“内生性问题”（Endogeneity）与“自相关问题”（Autocorrelation）。所有回归模型都假设回归的残差项与回归分析所用的自变量独立而不相关，这一假设称为自变量的“外生性”（Exogeneity）。这一假设的违背，被称作“内生性问题”，它的产生源自于重要解释变量（也称控制变量）的缺省或丢失，它是我们做因果分析时面临的“选择性偏差” （Selection Bias ）问题，而与“自相关”毫无关系。自相关问题，是指回归分析关于“独立观察个体”（Independent Observations）的假设遭到违背，它的出现，通常源于多层次数据、时间序列数据、或追踪数据。以多层次数据为例，我们把小学生分成不同的班级，这样一个分组会产生一种“群组效应”（Clustering Effects），因为同班级的学生由同一个老师教出，学生们下课以后又互相学习，学习成绩（研究的因变量）上会高度相似。这种相似，被称为自相关。所谓自相关或群组效应，是指部分的数据成为多余— 我们每班有20个学生，但是由于自相关，我们实际上并没有20项独一无二的信息量。又如，在时间序列中，今年的自变量与去年或明年高度相关、与前年或后年的自变量也相关但在程度上“衰减”，这样一种由“时间自相关” （Temporal Autocorrelation ）所产生的问题【参数估算的无偏性（Unbiasedness）及有效性 （Efficiency）遭挫】需要研究者用新的、“最小二乘法”之外的方法来解决。

“协方差”（Covariance）与“异方差”（Heteroskedasticity）。这也是两个截然不同的概念。前者是测量一个变量如何随着另一个变量变化而变化。在公式上，协方差与方差很接近，我们或可把方差看作是协方差的特例，即某个变量是如何随自身变化而变化的。协方差与相关系数很接近，测量的是一回事：相关系数是两个标准化后的变量所形成的协方差，但是它比没有标准化的协方差要好，因为它永远居于-1 和 +1 之间，以它的绝对值靠近1 表示高度相关。异方差是一个回归假设遭违背的问题。所有回归模型，都假设因变量的方差在不同群组之间相同，称为“同方差”（Homoskedasticity）假设。当这一假设遭违背（比如，高收入的群组在储蓄上不仅比低收入的群组在平均数上要高，他们的储蓄率方差也要高很多），“最小二乘法”就不行了，研究者要采取补救措施做分析，通常采用“权重最小二乘法”（Weighted Least Squares）。

“标准差”（Standard Deviation）与“标准误”（Standard Error）。 这是两个有关联但本质上完全不同的概念。标准差是方差的平方根，用于测量某个变量的变异度，与方差、全距、平方和的功能类似。标准误是源自于“中心极限定理”（Central Limit Theorem）的一个重要概念，指的是某个统计量（如平均数，某个回归系数）的“抽样分布”（Sampling Distribution）的标准差。它是一个理论值，因为在现实生活中谁也无法观察到抽样分布。通常我们用数学方法推导出计算标准误的公式。标准误是我们检验统计假设、测量某个统计参数在总体中的显著性的最重要的统计量。

“阶梯线性模型”（Hierarchical Linear Model）与“阶梯回归”（Hierarchical Regression）。这也是两个完全不同的概念。前者是多层次分析（即需要解决自相关问题）的一种；后者是指在回归分析时，研究者将自变量分为不同的群组依次加入，以评估自变量的相对重要性。

“因变量与自变量高度相关”与“自变量之间的高度相关”。这也是两种完全不同的情形：前者是好事—当我们回归模型的因变量与某个自变量高度相关，它说明我们找到了最重要的解释变量；后者是坏事—当自变量两两之间高度相关，它说明解释变量之间存在共线性（Multicollinearity），需要研究者采取补救措施– 通常他们将高度相关的解释变量合在一起称作“量纲”（Scale），而量纲的开发需要证明它们具有计量心理学意义上的效度（Validity）和信度（Reliability）。

统计学产自数学，又主要由国外学者开发，经过几次转折，它们的重要术语和概念有被误解的可能。这里，请注意概念使用的精确性。须知，重要概念的误用和滥用，不仅不会给文稿加分，而且会“弄巧成拙”，将本来可能发表的文章自毙。更重要的是，它们的“以讹传讹”，将给我们的研究带来灾难。附带说一句，本篇讨论的几组概念，是我和我的同事在新博士求职演讲中对他们的保留问题；如果他们答错了，他们本轮求职的第一关就没通过。此时，真可用到“似曾相识燕归来”一诗的前一句了：“无可奈何花落去”……

相关链接：

社工统计学杂记之开篇语：公式其外，智慧其中

社工统计学杂记 1：开辟鸿蒙实证研究数据为先；经世济国统计佐证万策

社工统计学杂记2：大师风采

社工统计学杂记3：单变量、双变量、多变量分析

社工统计学杂记 4：泊松回归与负二元回归

统计学杂记5：“方差”的社会学意义

统计学杂记 6：“建立统计模型“犹如“制定治国方针”

^^ 欢迎扫描并关注“中美社工合作社” ^^

我们致力于做最业界良心

最有趣

最无节操的社工公号