写在前面 三 一生二 二生三 三生万物 单变量 双变量 多变量 分析之真谛 任何统计分析,都使用具有代表性的样本数据,检验由理论导引的研究假设。今天的统计分析,可以繁复到令人眼花缭乱的地步,“马尔可夫链蒙塔卡罗实验”、“布朗宁运动随机过程”、“局部线性回归加内核匹配”、“茁壮最大或然率法”,等等,单单名词,就足以让初学者望而生畏。 但是我们一定不能被公式和名词吓倒。整个统计分析,一言以蔽之,做的就是单变量、双变量、以及多变量的分析。一篇好的定量分析文章,能够把握好这个尺寸,由表及里、由浅入深、循序渐进,将分析的现象层层拨开,就已事半功倍了。 单变量分析是指对样本数据的描述。研究者必须对每一个关注的变量(因变量、解释变量、以及控制变量)做这样的描述。对连续变量的描述侧重于集中趋势和变异度,前者包括平均数、中位数(也称50百分位数)、众数,后者包括标准差、方差、平方和、全距。对离散变量的描述多用百分比。 双变量的分析关注两个变量(主要是因变量和解释变量)之间的关系。最常用的有检验两个连续变量相互关系的协方差和相关系数,以及检验两个离散变量相互关系的列联表和卡方分析。双变量的分析可以对研究的假设做最初的、在没有控制其它因素情况下的检验。譬如,如果我们假设群组一的收入要比群组二高,我们可以比较两组人群收入的平均数,并对这两个平均数的差异做“独立t检验”以确定平均数的差异是否具有统计意义上的显著性。如果要比较三个或更多人群的平均数,我们可以运用方差分析以确定这些差异在统计意义上的显著性。 多变量的分析有两种情形:一是关注一个因变量与若干个解释变量之间的关系,二是关注若干个因变量与若干个解释变量之间的关系。前者的主要方法是多元回归分析,后者的主要方法是多元方差分析和结构方程模型。虽然多变量分析用到两个以上的变量,它主要关心的还是两个变量之间的关系,不过这时我们想揭示的是它们之间较为纯粹的关系,即在其它因素控制以后两个变量之间的关系。 统计分析由简至繁的第二层意思,是指每一步的分析(单变量、双变量、多变量分析),由于数据性质的变化而在分析方法上变得复杂。 任何统计分析方法,都基于某些对研究数据的特定假设,这些假设在实际数据中可能遭到违背。由于假设条件违背,研究者不得不使用更为复杂的方法来处理数据。例如,当因变量是一个事件史发生的时点,研究者会遇到数据的删节问题。数据删节,违背了关于连续变量的假设,研究者就不能用标准差和平均数来做单变量的描述,而必须用生命表或“乘积极限”的方法计算出生存函数,用生存函数的百分位数做单变量描述。由于删节,双变量的分析也随之变得复杂而需做log-rank 或相应的检验,多变量的分析也需用到“比例风险”及相似的模型。 统计方法的由简至繁,源于世界万物由简至繁的生成规律。这一点,中国道教的始祖老子讲得最清楚。老子《道德经》第四十二章云:“道生一,一生二,二生三,三生万物”。这是老子的宇宙生成观,表示“道”生万物从少到多,从简单到复杂的一个过程。记住这句话,记住道教的一、二、三,也就记住了统计分析的真谛。统计分析,就是一个由简至繁的过程:分析上由一至二,由二至三或更多变量;方法上也从简单进到复杂。 相关链接: 社工统计学杂记 1: 开辟鸿蒙实证研究数据为先;经世济国统计佐证万策 ^^ 欢迎扫描并关注“中美社工合作社” ^^ 我们致力于做最业界良心 最有趣 最无节操的社工公号 |
|