统计分三级,初级统计说一说(图表),中级统计比一比(检验),高级统计找关系(模型)。其中构建模型是统计学的大成功夫,是统计学中最难啃的骨头! 然而统计建模这块骨头中,如果再加入交互作用,那么就是难上加难了! 后台经常有人问到模型中的交互作用问题,特此整理一期,以感谢大家对精鼎统计,对松哥统计的支持! Y=β0+β1X1+β2X2 其中,Y表示收入,X1表示“情商”(0=低,1=高),X2表示“性别”(分类变量,用”0“为女性;“1“表示男性)。 通过方程可见: β1:为控制X2后,高情商比低情商多出的收入; β2:为控制X1后,男性比女性多出的收入; 如过要考虑X1和X2之间的交互作用,那么方程表达为: Y=β0+β1X1+β2X2+β3X1X2 其中的X1X2代表交互项,但是此时的系数如何解释,就变的复杂起来。 当X1=0时(代入有交互项的方程,下同): Y=β0+β2X2 当X1=1时: Y=β0+β1+β2X2+β3X2 两式相减,即可得到当X1变化一个单位时,Y的变化情况: ΔY=β1+β3X2 由此,可以发现,加入交互项后,X1(即情商),每变化一个单位(比如增加一年),收入的变化不仅取决于β1,而且还取决于β3和X2。 因此,我们不能再直接将β1解读为情商对收入的影响。 同理,β2也不能直接解读为性别对收入的影响。 在这样的情况下,到底应该如何来对这三个回归系数进行解读呢?思路其实很简单,诀窍就是分别让X1和X2等于0。 上面我们已经计算过X1=0时, ΔY=β2X2 由此可见,β2的含义就是,在X1=0时,X2每增加一个单位,Y的增加量。 结合各个变量所指代的含义,我们可以这样说: 对于情商为0的人(X1=0),β2表示男性的收入比女性高多少(记住X2表示性别,所以X2变化一个单位,从0到1,就是指从女性到男性)。 同理,我们想考察β1的含义,就让X2等于0. 当X2=0时, ΔY=β1X1 从而,我们可以将β1解读为:对于女性人群,高情商者其收入的增加量。 由此来看,加入交互作用后,回归系数(β1和β2)的解读需要加入一定的限定条件,比如”情商为0“、或者特定为“女性人群“。 说了那么多,可能您已经被绕晕了,最后简单点吧,一个公式,一张表,一个案例,说四种可能: Y=β0+β1X1+β2X2+β3X1X2 (1)对于女性而言,学历每增加1个级别,待遇改变β1; (2)对于男性而言,学习每增加1个级别,待遇改变β1+β3; (3)对于低情商而言,男性比女性待遇改变β2; (4)对于高情商而言,男性比女性待遇改变β2+β3. 虚构一个案例,看可否更容易懂点: Y=β0+β1X1+β2X2+β3X1X2 Y=5+60X1+100x2+50X1X2 虚构一下,比如国家规定,只要成年就发钱,X1发60,X2发100,如果X1X2结婚则多发50。(X1=0未成年,X1=1成年;X2=0未成年,X2=1成年)。 那么:如果X1=0未成年,那么成年X2比未成年多拿100元; 如果X1=1成年,那么成年X2比未成年多拿100+50元; 如果X2=0未成年,那么成年X1比未成年多拿60元; 如果X2=1成年,那么成年X1比未成年多拿60+50元。 虽然对于构建模型来说,数值变量、等级变量、二分类变量和无序多分类变量都可以作为X进入模型,理论上各种X类型的变量都可以研究交互,但是无序多分类变量,因为要设置哑变量,从而会导致结果解释更加的复杂,故较少研究。如下类型的交互皆可以研究:(1)数值变量与数值变量;(2)数值与等级;(3)数值与二分类;(4)等级与等级;(5)等级与二分类;(6)二分类与二分类。 虽然上述6种皆可以研究,但是在发表文章的结果表达上,(1)数值与数值的交互不便于进行统计表的展示,因为数值与数值的组合实在太多;因为存在交互后,往往要分层分析,都是数值则无法分层;如果多数值进行等级化,那就变成了数值与等级,或者等级与等级的交互形式了。其他类型的交互统计表达均无压力! |
|