结构方程模型建模思路及Amos操作 ——介绍篇

洪梅6jraxg3utr 2019-08-02

展开全文

一、什么是结构方程模型？

结构方程模型是基于变量的协方差矩阵来分析变量之间关系的一种统计方法，是多元数据分析的重要工具。

结构方程模型的初衷在于针对潜变量之间关系进行建模。例如，智商，情商，成功这三个潜变量之间到底是何种关系？但是它们三个本身不可直接测量，于是需要通过一定手段对它们进行测量。

二、为什么要使用结构方程模型？

首先，很多心理、教育、社会等概念，均难以直接准确测量，这种变量称为潜变量（latent variable），如智力、学习动机、家庭社会经济地位等等。因此只能用一些外显指标（observable indicators），去间接测量这些潜变量。传统的统计方法不能有效处理这些潜变量，而结构方程模型则能同时处理潜变量及其指标。

其次，SEM（结构方程模型）因为更复杂，看上去更高大上，且因为期刊的编辑对SEM还不是特别熟悉，所以面对庞大、复杂的SEM模型，文章投稿者的确更容量获得发表的优势。2008年，美国著名统计学大师Barry J. Babin、Joseph F.Hair和James Boles合作发表了一篇文章《Publishing Research in Marketing Journals Using Structural Equation Modeling》，在这篇论文中三位学者通过追踪美国市场营销领域顶尖期刊投审稿及发表情况得出结论：使用结构方程模型（SEM）能够提升论文质量和评审专家的推荐力度，增加发表概率。

三、用什么软件做SEM？

作为一种统计技术，SEM最早可以追溯到1910年代，但真正成熟是在1960-1970年代，随着各种模型的发展，也发展出了各种能够方便快捷使用的SEM软件技术，比如我们耳熟能详的AMOS、Lisrel等等，那究竟哪一种软件更热门呢？

首先在Google Trend中进行了对比。从数据中很明显地可以看出，2004年至今，红颜色所代表的Amos全面碾压了Lisrel。

另外，2009年发表的一篇叫《A Systematic Review of Structural Equation Modelling in Social Work Research》的文章提供了社会工作领域的SEM软件的使用对比图，其中AMOS软件占到40%，Lisrel占比25%。

我们没有中国的数据，但如果在中国的话，相信AMOS会使用地更多。主要原因是：AMOS提供了类似SPSS式样的图形界面，你会更加方便的操作，而Lisrel则需要通过编程的方式进行。

四、一切的伊始——问卷设计

一般而言，利用SEM分析的数据来源于问卷调查，当然也可以用其他的观察变量直接进行分析，比如说在经济领域建模，类似于资本、人力、投资等是可以直接观察的，不需要引入潜在变量，所以也不需要问卷进行数据收集，一般是有数据库这样子的。

问卷设计的时候，有一些小技巧

1.设计量表的时候，颗粒度分细一些，最好的李克特7级量表(Lubke & Muthén, 2004)。别看国内大家平时都是用的李克特5级量表多一些，其实在SEM软件分析的时候，国外使用5级或者7级的量表进行数据收集的paper都比较多。并且，颗粒度越细，数据越容易服从多元正太分布，才能采用SEM内定的ML进行数据分析。但是记住，5级量表是最低要求，不能更低了。

2.万一没办法，你拿到的数据离散程度较差，成偏态，或者是见下图，二分类变量啊亲，搞死人的情况下，可以采用Item parcel的方法，就是打包的意思，你按照自己的专业知识，如果问卷题目够多话，把好几道题的结果相加，即使样本上不大，达到一定稳定性，如果样本量较大，也可以解决这种无奈的问卷设计缺陷。

这本书Kenny D A. Correlation and causality.[M]// Correlation and causality. Wiley, 1979:e140-1.里面的第179页有告诉大家Item parcel的技巧。

3.原始问卷设计时每一个潜在变量要设计至少3题，5~7题为佳(Bollen, 1989)。有备则无患呐，万一跑程序的时候，发现一些题目的loading比较低，那还有得删除题目，以提高整个模型的匹适度。要是设计得每个潜在变量只有3道题，那真是没得删了。分析时先做EFA删除不要的题目，先用将loading0.6以下去除，再将cross-loading0.35以上删除。所以每一个潜在变量5~7题简直不能太棒！在正式的写在paper里面的文件，最好每个item要有4个题目比较好，因为3个题目没有办法做重置性检查、4个可以做误差相关、5个比4个好一点。4个最好。

关于第3点有一篇比较好的paper里面有介绍：Marsh H W, Hau K T, Balla J R, et al. Is
More Ever Too Much? The Number of Indicators per Factor in Confirmatory Factor
Analysis[J]. Multivariate Behavioral Research, 1998, 33(2):181.

4.最少要有两个潜变量( Bollen, 1989)，并且潜变量个数最好维持在5个以内，不要超过7个。同时每一个指标不得横跨到其他潜变量上，也就是说一个问题不要用来同时衡量两个潜变量。换言之，

Cross-loading<>

Cross-loading同时属于多个潜变量的loading，如果大于0.4，表示横跨了2个因子，所以题目最好删除(Hair et al., 1998)。

5.量表最好不要自己设计，自设量表存在很多问题，就不赘述了，除非你是大牛。哪怕是修改理论框架也要根据其他学者的理论和paper进行修改。